2126 字

11 分钟

Codex 能操控你的电脑了，这不是科幻，是真在点鼠标

2026-04-30

AI/LLM

OpenAI

/

Codex

/

AI 编程

/

桌面自动化

/

Agent

Codex 能操控你的电脑了，这不是科幻，是真在点鼠标#

4月16日，OpenAI给Codex发了一波大更新，里面最让我坐不住的功能是——Codex可以操控你电脑上的应用了。

不是通过API，不是命令行。是真的有个虚拟鼠标在屏幕上移动、点击、输入。你在旁边看着，它自己干活。

这个功能一开始只支持macOS，而且不是所有用户都有。我运气好，更新当天就拿到了。用了两周之后，我想聊聊它到底好不好用，以及它和我们之前见过的”AI操控电脑”有什么本质区别。

它是怎么”看”和”做”的？#

以前的AI写代码，流程是这样的：

你描述需求
AI输出代码
你复制粘贴到编辑器
你运行、测试、调试

有了桌面操控之后，流程变成：

你描述需求（或者在浏览器里直接圈选一个网页区域说”把这个改好”）
AI自己打开你的编辑器，创建文件，写代码
AI自己打开浏览器预览效果，根据结果再改
AI自己打开终端运行测试，看结果修bug

它不是在”生成代码给你看”，而是在”用你的电脑完成工作”。这是一个质的区别。

场景一：前端调试#

这是我最先测试的场景。我打开了一个本地的Astro项目，在Codex的内嵌浏览器里打开页面，然后说：“导航栏在小屏幕上重叠了，帮我修一下。”

Codex做了什么：

在浏览器里缩小窗口，模拟手机宽度，确认了导航栏重叠的问题
切换到VS Code，打开对应的CSS文件
定位到问题代码（一个@media查询里缺少flex-wrap: wrap）
修改代码并保存
回到浏览器刷新页面，确认修复

整个过程大约2分钟，我什么都没做，就看着鼠标自己移动。

翻车的部分：它第一次修改之后，刷新页面发现没变化——因为它改错了一个文件（项目里有两个同名的CSS文件，它改了dist目录里的而不是src里的）。我提醒了一下，它立刻找到了正确的文件并修复。

这个翻车其实很有价值——它暴露了AI操控电脑的一个核心弱点：它不像人类那样有”文件结构”的全局理解，更多是基于视觉和文本的局部推理。

场景二：跨应用工作流#

OpenAI在发布会上举的例子是”让Codex帮你整理今天的工作”，实际体验是这样的：

我给了一个指令：“帮我看看今天Slack里有没有人@我，然后把相关的消息和我的日历对照一下，列个今天的待办清单。”

Codex做了：

打开Slack，扫描提到我的消息
打开Google Calendar，读取今天的日程
在Notion里创建了一个页面，把待办事项整理好

整个过程花了大概3分钟，期间我鼠标键盘都动不了——因为Codex在占用控制。这是目前最大的体验问题之一：它工作的时候你不能用自己的电脑。

不过OpenAI说”后台模式”已经在路上了，Codex可以在后台开一个独立窗口运行，不影响你自己的操作。这个功能我还没拿到。

场景三：GUI应用的自动化测试#

这个场景可能很多人没想到，但我觉得是桌面操控最有潜力的方向之一。

我有一个Electron应用，之前写自动化测试特别痛苦——需要写一堆Selenium/Playwright脚本来模拟点击和输入。用Codex的话，流程简化成：

打开应用
告诉Codex：“帮我测试一下登录流程——输入邮箱密码、点登录、验证跳转到Dashboard”
Codex自己打开应用，填写表单，点击按钮，截图验证

关键是它不需要你提前写好测试脚本，你说人话，它自己知道要点哪里。当然，这个结果不能替代正式的E2E测试，但用来做日常的冒烟测试非常高效。

和RPA的对比#

很多人看到这个功能第一反应是”这不就是RPA吗？”

确实，UiPath、Power Automate这些RPA工具也能做”模拟点击”。但有几个根本区别：

RPA的做法#

你需要提前录好操作流程（或者用拖拽编排）
如果UI变了（按钮换个位置、改个名字），流程就断了
不能处理”不确定”的情况（比如弹窗内容不固定）

Codex的做法#

你用自然语言描述目标，它自己找到操作路径
UI变了它能重新识别——因为它看的是”屏幕画面”，不是”固定坐标”
遇到意外弹窗它能自己判断是关掉还是处理

这不是”更好的RPA”，这是”不需要提前编程的RPA”。

安全问题#

这个功能的安全风险是实打实的。一个AI能操控你的电脑，意味着：

如果你不小心给了它访问敏感应用的权限，它可能泄露数据
如果它的推理出了错，可能点错按钮（比如把文件删了而不是改了）
目前只支持macOS，微软和Linux用户还要等

OpenAI加了几个安全措施：

操作可见：你全程能看到鼠标在做什么，不是黑箱运行
可以中断：随时按快捷键终止
应用白名单：目前Codex只能操作它自己打开的应用，不能随意切换到任意窗口

但老实说，这些安全措施还不够成熟。在企业环境里，我不建议让Codex直接操作生产服务器上的应用。开发环境用用还行。

我的真实感受#

用了一周之后，我的感受是：Codex的桌面操控能力，现在处于”惊艳但不够可靠”的阶段。

惊艳的地方：

它真的理解”把这个网页上的表单填好”这种模糊指令
跨应用切换非常自然，不像RPA那样需要手动编排
遇到错误会自己尝试修复，不是直接报错停住

不够可靠的地方：

复杂流程中间偶尔会”迷路”，点错地方
不能并行操作（它占着电脑的时候你不能干活）
对中文界面的理解比英文差很多——按钮上的中文文字它经常认不准

我的建议用法：把它当”一个特别聪明但不太稳定的实习生”——给它明确的、单一的任务（“把这个CSS bug修了”），不要给它模糊的、多步骤的工作（“帮我把这个项目部署上线”）。

更大的图景#

Codex的桌面操控只是OpenAI”超级应用”计划的第一步。按照OpenAI的说法，他们想做的不是一个”会写代码的工具”，而是一个能理解你整个数字工作环境、替你完成重复性劳动的基础设施。

从写代码，到操控电脑，到管理日程和邮件——这不是三个独立的功能，是一个连贯的演进路线。

但路线图是一回事，交付质量是另一回事。今天我能说Codex操控电脑”能用”，但不能说”好用”。它还需要几轮迭代才能真正成为日常工具。

结论#

Codex能操控电脑这件事本身已经足够震撼了。但震撼不等于实用。现在的Codex更像是一个技术展示——“看，我们能做到”——而不是一个成熟的产品功能。

如果你是macOS用户，而且工作里有很多重复性的跨应用操作（比如每天要从三个系统里拉数据然后整理成报告），那值得试试。

如果你指望它”自己把整个项目写完”——还早。

不过说实话，两年前我也觉得AI生图”还早”，ChatGPT写代码”还早”。所以现在说”还早”，可能一年后回头看又打脸了。

OpenAI和Anthropic同一天成立企业合资公司——AI正在走Palantir的路

AI 生图终于能用了？ChatGPT Images 2.0 实战体验

1

Codex 能操控你的电脑了，这不是科幻，是真在点鼠标