📢 转载信息
原文链接:https://www.ifanr.com/1639270?utm_source=rss&utm_medium=rss&utm_campaign=
原文作者:张子豪
国庆长假,AI大模型们纷纷献上更新大礼包。OpenAI 发布了 Sora 2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,而 Kimi 则在App更新记录中悄悄宣布了重磅消息。
Kimi 的“献礼”是上周四上线的 Agent 模式测试,推出了一个名为「OK Computer」的智能体。
与之前我们评测过的深度研究不同,OK Computer 不仅仅是生成一份可视化报告,它更像提供了一台完整的电脑,我们能用电脑完成的任务,这个智能体理论上都可以做到。
但“能做”和“做得好”之间,仍有巨大鸿沟。我们将通过实测来检验,Kimi 全新的 OK Computer 在 Agent 领域究竟表现如何。
AI 帮你策划国庆游玩攻略:理想与现实的差距
网站部署能力测试:大众化水平
首先测试网站部署能力,OK Computer 的速度比深度研究快了不少,但效果略显“大众化”,部分页面背景色依然是标志性的渐变紫。
▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/
从内容上看,布局和图片选择合理,但推荐目的地如北京、杭州(国庆期间的西湖),可能会导致“人山人海”的体验,因此这个“国庆旅游网站”的完成度只能算一般。
避开人潮的“反向旅游”路线设计:审美在线,深度不足
当我们要求 OK Computer 扮演顶级旅行定制师,设计两条彻底避开国庆黄金周的旅游路线时,交付成果看起来不错。
▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/
幻灯片的字体、背景图片和配色审美相当在线。然而,内容略显空洞,真正能帮助旅行的实用信息不多。我可能只知道有哪些地方可以去,但缺乏“为什么去”和“怎么去”的深度信息。并且,对于 AI 推荐的内容,人们总会存有一定的不信任感。
对比其他 Agent 成果
OK Computer 完成这两个任务都非常快。相比之下,Kimi 深度研究花费了近一个小时,生成了一份超过 50 页的预览报告(且无法修改)。
▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9
我们也将同样的需求抛给了千问(Qwen)新上线的“旅行规划师”智能助手。结果显示,Qwen 的表现明显更优。
▲ 10 页 PDF,清晰列出了时间段、活动类型和预估油费。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec
Qwen 充分利用了阿里的生态系统,它不仅推荐景点,还会实际调用高德地图,用明确的经纬度来确定行程,这与飞猪 AI 旅行规划师的逻辑相似。
其他 Agent 产品的效果与 OK Computer 类似:ChatGPT agent 生成了简洁的 10 页 PPT;Manus 看起来漂亮,但实用价值有限。
▲ ChatGPT agent 生成的内容,基于同样的提示词
不过,Kimi 的优势在于,生成类似结果时,无需额外的网络设置。
此外,Kimi 近期上线了付费会员方案,用户可以将之前的打赏金额抵扣为会员费。免费用户也能获得有限次数的 OK Computer 试用机会。
对比手机配置:OK Computer 的信息获取更聚焦于国际信源
基于 Kimi K2 的 Agentic 能力,OK Computer 能够自动浏览网页、搜索相关内容并生成图片来构建网站。
在这次手机对比测试中,OK Computer 的信息获取明显更全面、准确。它搜索网页内容时,主要采用 The Verge 等国际科技媒体信源,而 Kimi 深度研究则多使用简体中文网页。
▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求:联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax 和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/
OK Computer 还具备图片和音频生成功能。例如下面这张手机摄像头的拆解图,第一眼看上去非常惊艳。
Agent 交付:惊艳的 Demo,但距离实用仍有距离
经过测试,Kimi K2 的 Agentic 能力并非不行,但目前 Agent 类产品普遍停留在“我可以做出来一个东西,但不一定有用”的阶段。
无论是 PPT 制作、商业分析报告、旅游路线规划还是网页开发部署,几乎所有 Agent 都宣称能做,但真正能让人放心使用的成果,目前很难找到。
▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现
前几天 OpenAI 发布了一项新的基准测试 GDPval,被称为 AI Agent 的“职业技能大赛”。它不再考学术问答,而是选取了对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业任务。这些任务由平均有 14 年经验的专家设计,交付内容包含幻灯片、电子表格、CAD 文件等复杂格式,与 Agent 实际交付的成品类似。
GDPval 的出现,正是为了解决 Agent 从“我能做”到“我能做好”的转变。
▲ 专业评估员将对应模型的交付成果与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。
尽管这是 OpenAI 的研究,但第一名却是 Claude Opus 4.1。这也解释了为什么 Claude 模型在编程领域广受好评——它不仅能写代码,还能写出好代码。
Agent 难以做好的深层原因
OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab 曾指出,大语言模型出现的不确定性问题,不仅与 GPU 随机计算有关,还源于训练数据处理时缺少批次不变性。
更关键的原因是可用训练数据的不足。与训练生成图片、视频或文本不同,Agent 需要交付的内容复杂、现实世界任务繁多,难以归类到单一媒体类型。
▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境
目前常见的 Agent 任务多集中在制作 PPT、网页、预订餐厅、刷社交媒体、自动购物等,这些仅是现实世界的极小部分,而且这些任务往往缺乏明确的评估标准。
据 TechCrunch 报道,硅谷正在斥巨资为 Agent 构建“强化学习环境”(RL Environments)的模拟训练场。这些“环境”被一些 AI 公司创始人形容为“非常无聊的电子游戏”,例如模拟浏览器、模拟购物网站、模拟代码编辑器。
▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers
在这样的“环境”中,AI Agent 像新手玩家一样,通过一次次尝试、失败、获得奖励,学习如何独立完成购买商品、修复代码等复杂的多步骤任务。
当年李飞飞依靠海量的 ImageNet 数据集推动了计算机视觉的飞跃,如今 Agent 的发展似乎也遵循着同样的规律:如果缺乏大量标注的“强化学习环境”任务,Agent 很难达到像人脸识别那样可靠的深度学习技术水平。
▲ OK Computer 专辑封面,这是英国摇滚乐队 Radiohead 于 1997 年发行的第三张录音室专辑,距今已近三十年,曾获得多个重要奖项。
Kimi 一如既往地喜爱摇滚乐:公司名 Moonshot 致敬 Pink Floyd,而这次的 OK Computer 则致敬 Radiohead。
Apple Music 对《OK Computer》专辑的介绍语中,描述了人们在千禧年前夕对新技术的探索与反思:
尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。
如果你对因科技而加快的生活节奏,感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。
Kimi 今天推出的 OK Computer 似乎也在隐喻:科技正在改变我们的工作习惯,加快我们的生活节奏。但现实是,目前的 Agent 产品很难真正做到让人“难以招架”。
无论是 Kimi 还是 ChatGPT,以及其他同类 Agent 产品,在发布时总强调“我们的 Agent 有哪些功能,能做什么”,却很少提及“我们的 Agent 能做成什么效果”。
我们不必放慢脚步,因为真正的 OK Computer 还在努力追赶我们。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区