PVE 使用 LXC 部署 Miloco

前言

虽然 Miloco 的系统要求写着要求 30 系以上的显卡，看着有点劝退，但其实可以不部署对应的模型，只运行系统，模型从云端获取（也可以是本地部署的模型）。由于部署只支持 Linux 和 WIndows，而且对具体的 Linux 发行版也有不少限制，例如 Alpine 就不行，过程中踩了不少坑，还是写篇文章记录一下。

LXC 准备

虽然完全可以自己用模板起 LXC 然后再装 Docker 之类，但是有个很好用的脚本：

bash -c "$(curl -fsSL https://raw.githubusercontent.com/community-scripts/ProxmoxVE/main/ct/docker.sh)"

中间根据自己的需要配置一下网络，其他选项保持默认即可。配置的过程中会问你要不要安装 Docker Compose，选择是，剩下的也保持默认即可。这个脚本完成后，就会看到一个新的 LXC，里面已经配好了 Docker 和 Docker Compose，使用的发行版是 debian。

接下来进入 LXC 中，用 root 用户登录，然后运行下面几个命令新建一个用户，并且给到 Docker 的权限。

adduser miloco
addgroup miloco docker
usermod -aG docker miloco
usermod -aG sudo miloco

退出 root 用户，用新建的用户重新登录即可，登录后可以运行一下 docker 和 docker compose，如果没有报错说明配置成功。

部署 Miloco

官方提供了一个部署脚本，直接运行：

bash -c "$(wget -qO- https://xiaomi-miloco.cnbj1.mi-fds.com/xiaomi-miloco/install.sh)"

选择 2，不安装 AI 引擎，然后等待他完成即可。浏览器访问 https://<YOUR_IP>:8000即可。接着就是配置 PIN 码，绑定小米帐号，进入系统，没啥特别的。

模型配置

由于视觉理解的功能需要使用摄像头的画面，出于隐私的考虑还是使用本地部署的为妙。我的 Mac Mini M4（16G RAM）使用 LM Studio 部署了 Qwen3 Vl 4B 和 Glm 4.6v Flash，我更推荐前者，推理速度更快，效果也差不多。

推理模型则是使用了火山引擎的 doubao-seed-1.8，尝试过 DeepSeek V3.2，似乎适配不是很好会输出一些无意义的标签，遂弃之。

使用体验

其实我对 Miloco 还是有比较大的期待的，这有点像是特斯拉的纯视觉方案与激光雷达方案之争。我原本觉得它能以更好的方式实现「人在」的检测。这里补充一点背景信息，我住的是二十平左右的单间，摄像头放置在进门的位置，能覆盖基本整个房间；之前使用领普人体存在传感器，人在检测其实不是很准确，有时候在床上睡觉会被识别为没人，白天出门上班后不知道是墙太薄被邻居干扰还是什么原因，会识别为有人。

Anyway，我设置了两条规则，「有人回家打开空气净化器」和「没有人在家关闭空气净化器」。前者我回家之后过了十分八分钟才响应然后打开，反应特别慢，不知道是推理的延迟，还是触发推理的逻辑就有问题（我推测是画面有剧烈变动才触发推理）。这个 case 下使用体验远不如人在传感器（如果它不被干扰的话）。

然后我又尝试了两个人在传感器没法实现的规则（至少是没有分区功能的人在传感器没法实现的），「有人躺在床上切换空气净化器至静音模式」和「有人离开床切换空气净化器至自动模式」。能用，但是问题很多。除了上面提到的反应慢，规则之间还会相互打架，例如我在床上盖着被子，一时会被识别为「有人在床上」，一时又会被识别为「没有人在家」，似乎 AI 不太能处理好「人盖着被子」这个场景。

所以在「人在」这个场景来说，暂时还是人在传感器比较靠谱。在配置规则的时候，也没法把传感器加入条件中。而且，目前似乎没有用 AI 来对冲突的规则进行处理。

另外一个经验是，在规则的「设备执行」这里，可以使用缓存指令的功能，就是它每次都会调用测试时的那几个 MCP，响应会快一点，也节省 token。操作设备的 MCP 是幂等的，例如设备原本就是打开状态，再操作打开设备不会有滴声；所以执行的规则应该是「打开xx设备」而不是「如果xx设备没有打开，就打开这个设备」，前者可以缓存，后者就没法缓存。

最后，我觉得 Miloco 一个非常大的亮点就是把智能家居的门槛降低了。之前配置自动化，需要一大堆传感器，然后排列组合去选择条件、调试，对于本身会编程的人来说倒是不复杂，但对普通用户应该还是有一些认知门槛的。Miloco 的交互就很直接，一句话就能创建对应的规则，配置规则的地方也是可以用自然语言去描述的。另一点就是它是「纯视觉方案」，不再需要依赖原本的人在传感器了，可以实现一些原本纯传感器没法实现或者摄像头需要依赖云端算法的功能，例如有人跌倒之类的功能。虽然现在 Miloco 还很 prototype，我觉得完善一下响应速度、规则支持传感器条件以及规则冲突的处理，再打磨一下，可能就会上到米家普及。小米也可以卖部署好 Miloco 的新中枢网关（也许可以内置 AI 算力？），值得期待。

阿猫的博客