Hermes 也能操控你的 Mac 桌面了，而且不限模型

说到 Computer Use，大多数人第一反应是之前 Codex 发布的 Computer Use —— Codex 可以直接看着你的屏幕，帮你点、帮你打字。用过的人应该都知道，好用是好用，但是只能 Codex 使用；

Hermes 刚更新的这个 Computer Use 功能，把这一痛点解决，而且不限模型。

注意⚠️：由于 Computer Use 依赖 cua driver，且该驱动只支持 Apple 芯片苹果电脑，所以其他设备不用尝试了

Hermes 的 Computer Use 走的是 MCP 协议，底层驱动叫 cua-driver。它不绑定任何一家模型厂商，只要你的模型支持 vision（能看截图），就能拿来驱动桌面。

Claude、GPT-4/5、Gemini、OpenRouter 上的任意 vision 模型，甚至本地跑的 vLLM——全部能用。没有 Anthropic-native schema 的限制，也没有“必须用某个特定模型”的门槛。

这意味着什么？你可以用最便宜的 vision 模型干杂活，用最强的模型干精细活，自由搭配。而不是被锁在一个 provider 上。

这是另一个我特别在意的点。

大多数 Computer Use 实现，操作的时候你的鼠标会自己动、窗口会跳到前台、macOS 会切 Space。你本来在写文档，它突然把 Mail 切到最前面去搜邮件，体验很割裂。

Hermes 这个不一样。它用的是 macOS 的 SkyLight 私有 SPI，事件直接发给目标进程，不走 HID 事件注入，不移动光标，不切换 Space，不抢焦点。你和 agent 各干各的，互不干扰。

官方文档里举了个例子：让 agent 去 Mail 里搜 Stripe 的最新邮件并总结。整个过程你的鼠标纹丝不动，Mail 窗口也不会弹到前台。agent 在后台截图、点击搜索框、输入关键词、读取结果，一气呵成。

这其实就是 OpenAI Codex 那个“background computer-use”的开源版本。技术路线一样，只是 Hermes 把它做成了通用能力。

后台操控桌面听起来有点吓人——万一它乱点呢？

Hermes 做了几层防护：

如果你想要更严格，可以在配置文件里设 approvals.mode: manual，每一步操作都要你确认才执行。

截图很烧 token，这个是 Computer Use 的通病。Hermes 做了四层优化：

实际效果：一个 1568×900 分辨率下 20 步操作的会话，截图上下文大约消耗 3 万 token，而不是 60 万。

这个差距很大。意味着你可以跑更长的任务而不用担心上下文爆掉。

首先执行命令更新 Hermes：

hermes update

方式一：直接命令安装（推荐）

hermes computer-use install

一行搞定。它会自动拉取 cua-driver 的安装脚本并执行。装完用 hermes computer-use status 验证。

方式二：交互式启用

hermes tools

在工具列表里选 🖱️ Computer Use (macOS) → cua-driver (background)，跟着提示走就行。

装完之后需要授权两个 macOS 权限：

然后启动会话：

hermes -t computer_use chat

或者把 computer_use 加到 ~/.hermes/config.yaml 的 enabled toolsets 里，以后默认就带上了。

macOS only。 cua-driver 依赖 Apple 的私有 SPI，Linux 和 Windows 上跑不了。跨平台的 GUI 自动化还是得用 Hermes 的 browser 工具集。

私有 SPI 风险。 Apple 随时可能在系统更新里改 SkyLight 的符号表。如果你想在 macOS 升级后保持稳定，可以用环境变量 HERMES_CUA_DRIVER_VERSION 锁定驱动版本。

后台模式比前台慢。 SkyLight 路由的事件延迟在 5-20ms，比直接 HID 注入慢。对 agent 速度的点击操作来说感知不明显，但别指望拿它跑速度测试。

不支持键盘输入密码。 type 命令对 shell 危险模式有硬拦截，密码类输入请用系统自带的自动填充。

Provider	视觉支持	可用	备注
Anthropic (Claude Sonnet/Opus 3+)	✅	✅	最佳体验，支持 SOM + 原始坐标
OpenRouter (任意 vision 模型)	✅	✅	支持多部分 tool message
OpenAI (GPT-4+, GPT-5)	✅	✅	同上
本地 vLLM / LM Studio	✅	✅	模型需支持多部分 tool content
纯文本模型	❌	⚠️ 降级	可用 mode=“ax” 纯无障碍树模式

Computer Use 这个能力，从 Anthropic 第一次演示到现在，一直是“看起来很酷但用起来有门槛”的状态。门槛不只是技术上的，还有使用成本上的——被锁在一个模型、一个平台，token 消耗高，操作时抢焦点。

Hermes 这次做的这几个点，刚好打在这些痛点上：模型解绑、后台运行、token 优化、安全兜底。

尤其是模型解绑这一点。Computer Use 本质上是一个“眼睛+手”的组合，“眼睛”是截图和理解，“手”是点击和输入。“手”的部分是固定的，“眼睛”的部分应该允许你选最合适的模型。Hermes 把这个选择权交给了用户。

如果你已经在用 Hermes，而且是 macOS 用户，这个功能值得试一下。安装成本很低，一条命令的事，但打开的可能性不小——尤其是那些需要 agent 操作桌面应用但又不想被抢走电脑控制权的场景。

文档来源：https://hermes-agent.nousresearch.com/docs/user-guide/features/computer-use

123