📢 转载信息
原文链接:https://www.ifanr.com/1639270?utm_source=rss&utm_medium=rss&utm_campaign=
原文作者:张子豪
国庆长假,AI大模型厂商们纷纷祭出更新大招。OpenAI 发布了 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,而 Kimi 则悄悄推出了 Agent 模式的测试,带来了名为「OK Computer」的智能体。
与之前我们评测的深度研究不同,OK Computer 不仅仅是生成一份可视化报告,它更像是一个完整的电脑,能完成我们用电脑可以做的事情。然而,能做和做得好之间,仍然存在不小的差距。我们将通过实测,带你深入了解 Kimi 全新的 OK Computer 在 Agent 领域中的表现。
AI 策划国庆游玩攻略:Kimi Agent 的网页部署能力初探
首先测试了 OK Computer 的网站部署能力。速度比深度研究快了不少,但效果感觉比较“大众化 Agent”的水平,尤其是一些页面背景色依然是渐变紫。
▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/
在内容布局和图片选择上表现不错,但推荐的目的地(如北京、杭州西湖)在国庆黄金周期间可能人满为患,这使得这个“国庆旅游网站”的实用性打了折扣。
换个思路,如果要求 OK Computer 扮演顶级旅行定制师,设计两条彻底避开国庆黄金周的旅游路线,它交出的成果看起来就很棒了。
▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/
这份幻灯片在审美上非常在线,字体和背景图片选择都很到位,但内容深度稍显不足,更多是告知了有哪些地方,而不是深入地告诉我为什么去以及怎么去。面对 AI 推荐的景点和带有滤镜的小红书推荐,我可能还是会更倾向于后者。
OK Computer 完成这两项任务都很快。相比之下,Kimi 的深度研究功能花了一个小时,生成了一份超过 50 页的预览报告。
▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9
深度研究的报告无法再进行修改,而 OK Computer 则提供了互动能力。
对比千问的旅行规划师
最近千问也更新了大量模型,其官方博客展示了一个“旅行规划师”智能助手。我们将同样的旅行规划需求丢给它,结果如何呢?
▲ 10 页的 PDF,将时间段、活动类型、可能消耗的油费都清楚地列举出来。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec
答案是:千问做得更好。得益于阿里生态系统的支持,千问的旅行规划师不仅仅是罗列景点,而是会实际调用高德地图,用明确的经纬度来确定行程,这与之前的飞猪 AI 旅行规划有异曲同工之妙。
其他 Agent 的效果,如 ChatGPT agent 生成的 10 页 PPT 和 Manus 的成果,在实用价值上与 Kimi 的 OK Computer 相似,都偏向于美观但信息深度不足。
▲ ChatGPT agent 生成的内容,基于同样的提示词
不过,Kimi 的优势在于,无需额外网络设置就能产生类似结果。
Kimi 近期也上线了付费会员方案,可以将之前的打赏金额抵扣为会员费,免费用户也能获得有限次数的 OK Computer 试用机会。
iPhone 与小米 17 Pro Max 对比测试
基于 Kimi K2 的 Agentic 能力,OK Computer 可以自动浏览网页、搜索相关内容并生成图片来完成网站设计。这次的信息源更加全面和准确,OK Computer 搜索网页内容时,主要采用了 The Verge 等国际科技媒体的信源,而深度研究则倾向于简体中文网页。
▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求:联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/
OK Computer 还具备图片和音频生成功能,比如这张手机摄像头的拆解图,视觉效果非常惊艳。
Agent 的交付:惊艳的 Demo,却难以落地
经过这些测试,我们认为 Kimi K2 的 Agentic 能力本身没有问题,但目前大多数 Agent 产品都停留在“我可以做出来一个东西,但是这个东西不一定有用”的阶段。
无论是生成 PPT、商业分析报告、旅游路线规划还是网页开发部署,几乎所有 Agent 都宣称能做,但最终成果能放心使用的却很难找到。
▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现
OpenAI 最近发布了一项新的基准测试 GDPval,被称为 AI Agent 的“职业技能大赛”。测试题目不再是学术问答,而是选取了对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业任务。这些任务由平均经验 14 年的专家设计,交付内容也包括幻灯片、电子表格、CAD 设计文件等复杂格式。
GDPval 的出现旨在解决从“我能做”到“我能做好”的跨越。
▲ 专业评估员将对应模型的交付成果与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。
尽管是 OpenAI 的研究,但第一名是 Claude Opus 4.1。这或许解释了为何 Claude 模型在编程领域广受好评——它不仅能写代码,还能写出好代码。
关于 Agent 表现不佳的原因,OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab 提到,大语言模型的不确定性问题不仅与 GPU 的随机计算有关,还与训练数据处理时缺少批次不变性有关。
另一个关键原因是可用训练数据的不足。与训练生成图片、视频或文本不同,Agent 的交付内容复杂,现实世界任务繁多,难以归类到单一的媒体类型。
▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境
目前常见的 Agent 任务多集中在制作 PPT、网页、预订餐厅、刷社交媒体、自动购物等,这些只是现实世界任务的一小部分,而且这些任务往往缺乏明确的评估标准。
据 TechCrunch 报道,硅谷正在投入巨资为 Agent 构建“强化学习环境”(RL Environments)的模拟训练场。这些“环境”被一些 AI 公司创始人形容为“无聊的电子游戏”,例如模拟的浏览器、购物网站、代码编辑器等。
▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers
在这样的“环境”中,AI Agent 就像新手玩家一样,通过一次次尝试、失败和获得奖励,学习如何独立完成多步骤的复杂任务,如购买商品或修复代码。
当年李飞飞凭借海量标注数据集 ImageNet 推动了计算机视觉的巨大进步。现在 Agent 的发展也呈现出类似的趋势:如果没有大量标注的“强化学习环境”任务,Agent 很难达到像人脸识别那样可靠的深度学习技术水平。
▲ OK Computer 专辑封面,这是英国摇滚乐团电台司令 Radiohead 在 1997 年发行的第三张录音室专辑,距离现在已近三十年,曾获多个奖项。
尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。
如果你对因科技而加快的生活节奏感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。
Kimi 今天推出的 OK Computer,似乎也表达了科技正在改变我们的工作习惯、加快我们的生活节奏。但目前的市场上的 Agent 产品,似乎还很难真正做到让人“难以招架”。
无论是 Kimi 还是 ChatGPT,以及其他同类 Agent 产品,在发布时往往会强调“我们的 Agent 有这些功能,能做什么”,却很少说明“我们的 Agent 能做成什么”。
不用放慢脚步,真正的 OK Computer 还在努力追赶我们。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区