2126 字
11 分钟
Codex 能操控你的电脑了,这不是科幻,是真在点鼠标

Codex 能操控你的电脑了,这不是科幻,是真在点鼠标#

4月16日,OpenAI给Codex发了一波大更新,里面最让我坐不住的功能是——Codex可以操控你电脑上的应用了。

不是通过API,不是命令行。是真的有个虚拟鼠标在屏幕上移动、点击、输入。你在旁边看着,它自己干活。

这个功能一开始只支持macOS,而且不是所有用户都有。我运气好,更新当天就拿到了。用了两周之后,我想聊聊它到底好不好用,以及它和我们之前见过的”AI操控电脑”有什么本质区别。


它是怎么”看”和”做”的?#

以前的AI写代码,流程是这样的:

  1. 你描述需求
  2. AI输出代码
  3. 你复制粘贴到编辑器
  4. 你运行、测试、调试

有了桌面操控之后,流程变成:

  1. 你描述需求(或者在浏览器里直接圈选一个网页区域说”把这个改好”)
  2. AI自己打开你的编辑器,创建文件,写代码
  3. AI自己打开浏览器预览效果,根据结果再改
  4. AI自己打开终端运行测试,看结果修bug

它不是在”生成代码给你看”,而是在”用你的电脑完成工作”。这是一个质的区别。


场景一:前端调试#

这是我最先测试的场景。我打开了一个本地的Astro项目,在Codex的内嵌浏览器里打开页面,然后说:“导航栏在小屏幕上重叠了,帮我修一下。”

Codex做了什么:

  1. 在浏览器里缩小窗口,模拟手机宽度,确认了导航栏重叠的问题
  2. 切换到VS Code,打开对应的CSS文件
  3. 定位到问题代码(一个@media查询里缺少flex-wrap: wrap
  4. 修改代码并保存
  5. 回到浏览器刷新页面,确认修复

整个过程大约2分钟,我什么都没做,就看着鼠标自己移动。

翻车的部分:它第一次修改之后,刷新页面发现没变化——因为它改错了一个文件(项目里有两个同名的CSS文件,它改了dist目录里的而不是src里的)。我提醒了一下,它立刻找到了正确的文件并修复。

这个翻车其实很有价值——它暴露了AI操控电脑的一个核心弱点:它不像人类那样有”文件结构”的全局理解,更多是基于视觉和文本的局部推理。


场景二:跨应用工作流#

OpenAI在发布会上举的例子是”让Codex帮你整理今天的工作”,实际体验是这样的:

我给了一个指令:“帮我看看今天Slack里有没有人@我,然后把相关的消息和我的日历对照一下,列个今天的待办清单。”

Codex做了:

  1. 打开Slack,扫描提到我的消息
  2. 打开Google Calendar,读取今天的日程
  3. 在Notion里创建了一个页面,把待办事项整理好

整个过程花了大概3分钟,期间我鼠标键盘都动不了——因为Codex在占用控制。这是目前最大的体验问题之一:它工作的时候你不能用自己的电脑。

不过OpenAI说”后台模式”已经在路上了,Codex可以在后台开一个独立窗口运行,不影响你自己的操作。这个功能我还没拿到。


场景三:GUI应用的自动化测试#

这个场景可能很多人没想到,但我觉得是桌面操控最有潜力的方向之一。

我有一个Electron应用,之前写自动化测试特别痛苦——需要写一堆Selenium/Playwright脚本来模拟点击和输入。用Codex的话,流程简化成:

  1. 打开应用
  2. 告诉Codex:“帮我测试一下登录流程——输入邮箱密码、点登录、验证跳转到Dashboard”
  3. Codex自己打开应用,填写表单,点击按钮,截图验证

关键是它不需要你提前写好测试脚本,你说人话,它自己知道要点哪里。当然,这个结果不能替代正式的E2E测试,但用来做日常的冒烟测试非常高效。


和RPA的对比#

很多人看到这个功能第一反应是”这不就是RPA吗?”

确实,UiPath、Power Automate这些RPA工具也能做”模拟点击”。但有几个根本区别:

RPA的做法#

  • 你需要提前录好操作流程(或者用拖拽编排)
  • 如果UI变了(按钮换个位置、改个名字),流程就断了
  • 不能处理”不确定”的情况(比如弹窗内容不固定)

Codex的做法#

  • 用自然语言描述目标,它自己找到操作路径
  • UI变了它能重新识别——因为它看的是”屏幕画面”,不是”固定坐标”
  • 遇到意外弹窗它能自己判断是关掉还是处理

这不是”更好的RPA”,这是”不需要提前编程的RPA”。


安全问题#

这个功能的安全风险是实打实的。一个AI能操控你的电脑,意味着:

  • 如果你不小心给了它访问敏感应用的权限,它可能泄露数据
  • 如果它的推理出了错,可能点错按钮(比如把文件删了而不是改了)
  • 目前只支持macOS,微软和Linux用户还要等

OpenAI加了几个安全措施:

  • 操作可见:你全程能看到鼠标在做什么,不是黑箱运行
  • 可以中断:随时按快捷键终止
  • 应用白名单:目前Codex只能操作它自己打开的应用,不能随意切换到任意窗口

但老实说,这些安全措施还不够成熟。在企业环境里,我不建议让Codex直接操作生产服务器上的应用。开发环境用用还行。


我的真实感受#

用了一周之后,我的感受是:Codex的桌面操控能力,现在处于”惊艳但不够可靠”的阶段。

惊艳的地方:

  • 它真的理解”把这个网页上的表单填好”这种模糊指令
  • 跨应用切换非常自然,不像RPA那样需要手动编排
  • 遇到错误会自己尝试修复,不是直接报错停住

不够可靠的地方:

  • 复杂流程中间偶尔会”迷路”,点错地方
  • 不能并行操作(它占着电脑的时候你不能干活)
  • 对中文界面的理解比英文差很多——按钮上的中文文字它经常认不准

我的建议用法:把它当”一个特别聪明但不太稳定的实习生”——给它明确的、单一的任务(“把这个CSS bug修了”),不要给它模糊的、多步骤的工作(“帮我把这个项目部署上线”)。


更大的图景#

Codex的桌面操控只是OpenAI”超级应用”计划的第一步。按照OpenAI的说法,他们想做的不是一个”会写代码的工具”,而是一个能理解你整个数字工作环境、替你完成重复性劳动的基础设施

从写代码,到操控电脑,到管理日程和邮件——这不是三个独立的功能,是一个连贯的演进路线。

但路线图是一回事,交付质量是另一回事。今天我能说Codex操控电脑”能用”,但不能说”好用”。它还需要几轮迭代才能真正成为日常工具。


结论#

Codex能操控电脑这件事本身已经足够震撼了。但震撼不等于实用。现在的Codex更像是一个技术展示——“看,我们能做到”——而不是一个成熟的产品功能。

如果你是macOS用户,而且工作里有很多重复性的跨应用操作(比如每天要从三个系统里拉数据然后整理成报告),那值得试试。

如果你指望它”自己把整个项目写完”——还早。

不过说实话,两年前我也觉得AI生图”还早”,ChatGPT写代码”还早”。所以现在说”还早”,可能一年后回头看又打脸了。