测完几个Agent工具，我发现他们能代打游戏了。。。

发个指令，给点权限，AI就能自己打开游戏库库玩了。

不懂咋玩？那就截图识别。没法操作？直接现搓脚本。操作一坨？甚至还能上网自己找攻略。

这就是现在跑在你电脑上的 AI Agent 能做到的事儿。

Codex

世超把市面上的一些 Agent 工具测了一遍，比如Codex，TRAE，QoderWork，Workbuddy，Marvis等等。

只能说，这玩意儿吹了这么久，大伙儿可能真不用再观望了。

从左向右依次为：第一行WorkBuddy，TRAE，Marvis；第二行Codex，QoderWork，悟空

当然，一听 code 啥的，大伙儿可能觉得是为专业开发者造的，门槛高，学起来用起来会很麻烦。

诶，莫担心，大厂们也都悄摸进化一轮了。

之前确实硬核了点，一个两个的都照搬 VS Code 那种传统的编程页面，适合开发，但并不适合和 AI 一起开发。

VS Code页面

既然引入 Agent 了，那肯定得重新设计，毕竟它是来干活的，而人是监督它的。

所以大家都很默契地改了同一套交互逻辑，把具体的代码隐去，再把 Agent 干活儿时的日志显示出来。

在网页里你可以叫它老师，但在 Agent 工具里，你得化身老板，把活儿给摊派明白。

Codex

咱先来看界面，也很简洁，主要三个部分。

左边是你手底下掌管的项目，中间是常规的聊天窗口，右边就能看到等待验收的东西了（一般等工作开始了才会有动静）。

向左滑动，依次为：Codex，TRAE，WorkBuddy，Qoderwork

能 BB 就不动手，咱先去 Agent 工具的 “ 应用商店 ” 里逛逛，看看有啥合适的技能包，也就是 Skill，给 Agent 装上左膀右臂。

能看到，琳琅满目啊，毕竟活儿的种类也就那么多，所以但凡有名有姓的基本都能扒拉到现成的方案。

什么数据分析，内容创作都不在话下，虽然不至于个个都好用，但参考参考终归是能少走点弯路的。

Marvis

其中做的比较有新意的是腾讯新出的 Marvis，把技能商店做成了类似小红书的信息流，可以边刷边收藏技能。

再加上技能在这些工具里是通用的，所以最近小红书自己也上线了 Skill 商店，用起来也相当方便。

当然，就算挑不过来也没关系，技能商店里还有帮咱选技能的技能。

Codex 里叫 Skill Installer，WorkBuddy 里叫 Find Skills，算是将懒人式进行到底。

左：Codex；右：WorkBuddy

至于自己造技能倒是不用急，虽然可以通过 AI 一步步引导造出来，但先射箭后画靶一般都不好使。

好的技能往往是先自己跑通几遍，再提炼总结，会更接地气，也更贴合自己的使用场景。

向左滑动，依次为：WorkBuddy，TRAE

选好技能就可以开始任务了，这里在开始前需要选一下任务类型，默认的是普通款，但一般 Plan 模式更好使。

这点还挺重要的，因为很多时候结果不理想不是 Agent 太笨了，而是咱自己也不知道想要什么。

这个 Plan 就是在任务开始前先规划一下，明确任务的条条框框。

有什么不妥就直接改了，不用等到最后才发现方向跑偏了。

Codex

简单说一下咱要做什么，就能敲回车下发指令了。

为了看具体流程，咱挑 3 个幸运儿来展示一下，OpenAI 的 Codex，字节的 TRAE 和腾讯的 WorkBuddy，国内外的都拉出来溜溜。

任务就原地 TP，让它们仨锐评它们仨。

此时就能发现 Plan 的好处了，比如执行任务前，Codex 和 TRAE 都向我二次确认了下 WorkBuddy 具体是哪一个，因为国外有同名的应用，容易混淆。

TRAE

当然，由于都是默认的模型，速度有快有慢，但就报告结果来看，确实各有 “ 特点 ” 呐。

WorkBuddy

先说 WorkBuddy，给到一个老实人，上来也没问我报告是个啥形式，吭哧吭哧就是干。

最后给的网页，就效果来看，还是不错的，排版和内容虽然 AI 味道重了点，但花里胡哨的符合咱锐评的主基调。

而且调研后的结论相当低调，把自己放在了靠后的位置，喷起自己毫不手软，实诚这一块儿到位了。

TRAE

再来看 TRAE ，给到一个人上人，活儿干的比较细致，不管是前期的弹出式的表单规划，还是中间的调研，思路都很清晰，子 Agent 的调用也是相当熟练了。

核心结论里，虽然把自己排到了老大，但考量了 6 个维度，总分是加权出来的，也算是有理有据了。

Codex

最后的 Codex，基本就是目前这个领域的标杆了，报告里先来一手信源分析，就跟大伙儿拉开了点距离，下面的评价也能明显感觉到更深入一些，结合了官方产品文档的内容。

模型好确实有优势，但考虑到国内用起来不方便，暂且给到一个半夯吧。

接下来，任务继续，让他们把各自的报告生成一份可视化的落地页。

你可能会说这活儿在网页里也能做，而且还更快。

Gemini

倒也没错，但不同的点在于，这里你不需要把代码再复制粘贴到本地了，而且最重要的，Agent 会自己调用工具，去检查成品有没有 BUG。

比如同样的任务，交给网页的 Gemini，这家伙甩给我几百行代码，我粘到本地打开，发现一片空白。。。

而这些 Agent 会在交付之前就避免这种情况。

WorkBuddy

WorkBuddy 是自己调用了 3 次预览，做了 2 次优化，才把网页交给我。

TRAE

TRAE 直接一些，直接打开了内置的浏览器，通过不同角度的截图识别，打不开就刷新重试，直到确认渲染效果符合预期。

Codex 也一样，权限不够，老是截不着网页，试了 N 次才确认好效果。

所以落地页的效果倒是其次，重点是这套任务执行的逻辑，是跟网页端应付交差完全不同的打法。

特别是截图反馈的工具调用，相当于给电脑安了个赛博义眼。

而像 Codex 这种更进一步，有 Computer Use 功能，可以全局截图反馈，然后操作。相当于你电脑上的软件，它都能打开，等模型能力更猛了，代打几局 LOL 也不是不可能。

Codex

当然，除了技能 skill，这些 Agent 工具还能接入其他应用，像是 GitHub，邮箱，网盘等。

更妙的是接入一些通讯软件，像微信，飞书，这也是龙虾当初火起来的一大原因。

接入后就能双向链接，甭管是从 Agent 往飞书发文档，还是从微信命令 Agent 往工位上下载资料，都没问题。

WorkBuddy

像是之前远程软件的升级版，加了个 Agent 当管家，帮你 24 小时盯着自己的电脑，随叫随到。

或者有一些定时的任务，也能找到 “ 自动化 ” 这种类型的入口，让它接管每天枯燥重复的流程性任务。

向左滑动，依次为：Codex，TRAE，WorkBuddy，Marvis

说了这么多，其实无论是什么手段，装什么插件，本质上都是在约束，控制着 Agent 朝咱预定的方向产出东西。

有大佬精心优化的工作流，有厂商调教好的记忆系统，也有方便实用的技能包。

用专业点的话说这些都是 “ Harness ”，原意是给马套上马具，放这儿也是非常贴切了。

无论马具下面的模型是哪一匹，这些 Agent 工具都得随套随用。

就用起来的体感而言，Codex 是比较夯的，模型给力，额度还偶尔重制，虽然需要一点手段，但比起 Claude 要简单得多，适合想体验顶尖性能的折腾党。

要是不想麻烦，直接用国内大厂的方案也行，嫌默认的模型笨，就去买点 DeepSeek 的 API 接上，也是妥妥的性价比平替。

至于平替里面选哪一个就取决于你的使用场景了，微信和 WorkBuddy 搭伙方便，飞书和 TRAE 集成更深，钉钉那边就是 Qoder 以及咱没测到的悟空了，不过逻辑都是一样的。

但话说回来，Agent 工具也是有缺点的，就是上的手段越多，花费的模型 Token 也越多，动不动几十分钟的长线任务，账单会变得贼拉长。

所以有什么便宜管饱的模型套餐，大伙儿就各显神通吧。。。

而要是不太繁琐的活儿，这些 Agent 工具也有免费的额度，白嫖一下尝尝咸淡总是不亏的。

撰文：风华

编辑：江江 & 面线

美编：焕妍

图片、资料来源：

Codex, TRAE, WorkBuddy, Marvis，QoderWork，悟空