Codex 能操控你的电脑了,这不是科幻,是真在点鼠标
4月16日,OpenAI给Codex发了一波大更新,里面最让我坐不住的功能是——Codex可以操控你电脑上的应用了。
不是通过API,不是命令行。是真的有个虚拟鼠标在屏幕上移动、点击、输入。你在旁边看着,它自己干活。
这个功能一开始只支持macOS,而且不是所有用户都有。我运气好,更新当天就拿到了。用了两周之后,我想聊聊它到底好不好用,以及它和我们之前见过的”AI操控电脑”有什么本质区别。
它是怎么”看”和”做”的?
以前的AI写代码,流程是这样的:
- 你描述需求
- AI输出代码
- 你复制粘贴到编辑器
- 你运行、测试、调试
有了桌面操控之后,流程变成:
- 你描述需求(或者在浏览器里直接圈选一个网页区域说”把这个改好”)
- AI自己打开你的编辑器,创建文件,写代码
- AI自己打开浏览器预览效果,根据结果再改
- AI自己打开终端运行测试,看结果修bug
它不是在”生成代码给你看”,而是在”用你的电脑完成工作”。这是一个质的区别。
场景一:前端调试
这是我最先测试的场景。我打开了一个本地的Astro项目,在Codex的内嵌浏览器里打开页面,然后说:“导航栏在小屏幕上重叠了,帮我修一下。”
Codex做了什么:
- 在浏览器里缩小窗口,模拟手机宽度,确认了导航栏重叠的问题
- 切换到VS Code,打开对应的CSS文件
- 定位到问题代码(一个
@media查询里缺少flex-wrap: wrap) - 修改代码并保存
- 回到浏览器刷新页面,确认修复
整个过程大约2分钟,我什么都没做,就看着鼠标自己移动。
翻车的部分:它第一次修改之后,刷新页面发现没变化——因为它改错了一个文件(项目里有两个同名的CSS文件,它改了dist目录里的而不是src里的)。我提醒了一下,它立刻找到了正确的文件并修复。
这个翻车其实很有价值——它暴露了AI操控电脑的一个核心弱点:它不像人类那样有”文件结构”的全局理解,更多是基于视觉和文本的局部推理。
场景二:跨应用工作流
OpenAI在发布会上举的例子是”让Codex帮你整理今天的工作”,实际体验是这样的:
我给了一个指令:“帮我看看今天Slack里有没有人@我,然后把相关的消息和我的日历对照一下,列个今天的待办清单。”
Codex做了:
- 打开Slack,扫描提到我的消息
- 打开Google Calendar,读取今天的日程
- 在Notion里创建了一个页面,把待办事项整理好
整个过程花了大概3分钟,期间我鼠标键盘都动不了——因为Codex在占用控制。这是目前最大的体验问题之一:它工作的时候你不能用自己的电脑。
不过OpenAI说”后台模式”已经在路上了,Codex可以在后台开一个独立窗口运行,不影响你自己的操作。这个功能我还没拿到。
场景三:GUI应用的自动化测试
这个场景可能很多人没想到,但我觉得是桌面操控最有潜力的方向之一。
我有一个Electron应用,之前写自动化测试特别痛苦——需要写一堆Selenium/Playwright脚本来模拟点击和输入。用Codex的话,流程简化成:
- 打开应用
- 告诉Codex:“帮我测试一下登录流程——输入邮箱密码、点登录、验证跳转到Dashboard”
- Codex自己打开应用,填写表单,点击按钮,截图验证
关键是它不需要你提前写好测试脚本,你说人话,它自己知道要点哪里。当然,这个结果不能替代正式的E2E测试,但用来做日常的冒烟测试非常高效。
和RPA的对比
很多人看到这个功能第一反应是”这不就是RPA吗?”
确实,UiPath、Power Automate这些RPA工具也能做”模拟点击”。但有几个根本区别:
RPA的做法
- 你需要提前录好操作流程(或者用拖拽编排)
- 如果UI变了(按钮换个位置、改个名字),流程就断了
- 不能处理”不确定”的情况(比如弹窗内容不固定)
Codex的做法
- 你用自然语言描述目标,它自己找到操作路径
- UI变了它能重新识别——因为它看的是”屏幕画面”,不是”固定坐标”
- 遇到意外弹窗它能自己判断是关掉还是处理
这不是”更好的RPA”,这是”不需要提前编程的RPA”。
安全问题
这个功能的安全风险是实打实的。一个AI能操控你的电脑,意味着:
- 如果你不小心给了它访问敏感应用的权限,它可能泄露数据
- 如果它的推理出了错,可能点错按钮(比如把文件删了而不是改了)
- 目前只支持macOS,微软和Linux用户还要等
OpenAI加了几个安全措施:
- 操作可见:你全程能看到鼠标在做什么,不是黑箱运行
- 可以中断:随时按快捷键终止
- 应用白名单:目前Codex只能操作它自己打开的应用,不能随意切换到任意窗口
但老实说,这些安全措施还不够成熟。在企业环境里,我不建议让Codex直接操作生产服务器上的应用。开发环境用用还行。
我的真实感受
用了一周之后,我的感受是:Codex的桌面操控能力,现在处于”惊艳但不够可靠”的阶段。
惊艳的地方:
- 它真的理解”把这个网页上的表单填好”这种模糊指令
- 跨应用切换非常自然,不像RPA那样需要手动编排
- 遇到错误会自己尝试修复,不是直接报错停住
不够可靠的地方:
- 复杂流程中间偶尔会”迷路”,点错地方
- 不能并行操作(它占着电脑的时候你不能干活)
- 对中文界面的理解比英文差很多——按钮上的中文文字它经常认不准
我的建议用法:把它当”一个特别聪明但不太稳定的实习生”——给它明确的、单一的任务(“把这个CSS bug修了”),不要给它模糊的、多步骤的工作(“帮我把这个项目部署上线”)。
更大的图景
Codex的桌面操控只是OpenAI”超级应用”计划的第一步。按照OpenAI的说法,他们想做的不是一个”会写代码的工具”,而是一个能理解你整个数字工作环境、替你完成重复性劳动的基础设施。
从写代码,到操控电脑,到管理日程和邮件——这不是三个独立的功能,是一个连贯的演进路线。
但路线图是一回事,交付质量是另一回事。今天我能说Codex操控电脑”能用”,但不能说”好用”。它还需要几轮迭代才能真正成为日常工具。
结论
Codex能操控电脑这件事本身已经足够震撼了。但震撼不等于实用。现在的Codex更像是一个技术展示——“看,我们能做到”——而不是一个成熟的产品功能。
如果你是macOS用户,而且工作里有很多重复性的跨应用操作(比如每天要从三个系统里拉数据然后整理成报告),那值得试试。
如果你指望它”自己把整个项目写完”——还早。
不过说实话,两年前我也觉得AI生图”还早”,ChatGPT写代码”还早”。所以现在说”还早”,可能一年后回头看又打脸了。