Kimi新Agent「OK Computer」能规划国庆游吗？跟着AI旅游会踩雷吗？-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

📢 转载信息

原文链接：https://www.ifanr.com/1639270?utm_source=rss&utm_medium=rss&utm_campaign=

原文作者：张子豪

国庆长假，AI大模型们纷纷献上更新大礼包。OpenAI 发布了 Sora 2，DeepSeek 更新了 V3.2，智谱更新了 GLM-4.6，而 Kimi 则在App更新记录中悄悄宣布了重磅消息。

Kimi 的“献礼”是上周四上线的 Agent 模式测试，推出了一个名为「OK Computer」的智能体。

与之前我们评测过的深度研究不同，OK Computer 不仅仅是生成一份可视化报告，它更像提供了一台完整的电脑，我们能用电脑完成的任务，这个智能体理论上都可以做到。

但“能做”和“做得好”之间，仍有巨大鸿沟。我们将通过实测来检验，Kimi 全新的 OK Computer 在 Agent 领域究竟表现如何。

AI 帮你策划国庆游玩攻略：理想与现实的差距

网站部署能力测试：大众化水平

首先测试网站部署能力，OK Computer 的速度比深度研究快了不少，但效果略显“大众化”，部分页面背景色依然是标志性的渐变紫。

▲ 提示词：我想做一个多页面的国庆旅游网站。要求： 1. 首页介绍「国庆去哪里玩」，推荐 3 个适合 3-5 天出行的国内目的地，内容要有趣味性。 2. 第二页是行程规划：每天安排吃、玩、住，输出表格。 3. 第三页是预算计算：帮我把费用拆解成交通、住宿、餐饮、门票四类，给一个大概价格范围，并能让我修改人数后自动更新预算。 4. 风格要 mobile first，适合手机浏览，页面清爽，最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/

从内容上看，布局和图片选择合理，但推荐目的地如北京、杭州（国庆期间的西湖），可能会导致“人山人海”的体验，因此这个“国庆旅游网站”的完成度只能算一般。

避开人潮的“反向旅游”路线设计：审美在线，深度不足

当我们要求 OK Computer 扮演顶级旅行定制师，设计两条彻底避开国庆黄金周的旅游路线时，交付成果看起来不错。

▲提示词：马上就是国庆黄金周了，我和 3 个朋友（共 4 人）想来一次为期 7 天的自驾游，我们的核心要求是「人少、景美、有深度」，彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师，为我们设计两条风格迥异的「反向旅游」路线，并为每一条路线制作一份精美的、详细的幻灯片，方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/

幻灯片的字体、背景图片和配色审美相当在线。然而，内容略显空洞，真正能帮助旅行的实用信息不多。我可能只知道有哪些地方可以去，但缺乏“为什么去”和“怎么去”的深度信息。并且，对于 AI 推荐的内容，人们总会存有一定的不信任感。

对比其他 Agent 成果

OK Computer 完成这两个任务都非常快。相比之下，Kimi 深度研究花费了近一个小时，生成了一份超过 50 页的预览报告（且无法修改）。

▲ 受限于篇幅限制，全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

我们也将同样的需求抛给了千问（Qwen）新上线的“旅行规划师”智能助手。结果显示，Qwen 的表现明显更优。

▲ 10 页 PDF，清晰列出了时间段、活动类型和预估油费。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

Qwen 充分利用了阿里的生态系统，它不仅推荐景点，还会实际调用高德地图，用明确的经纬度来确定行程，这与飞猪 AI 旅行规划师的逻辑相似。

其他 Agent 产品的效果与 OK Computer 类似：ChatGPT agent 生成了简洁的 10 页 PPT；Manus 看起来漂亮，但实用价值有限。

▲ ChatGPT agent 生成的内容，基于同样的提示词

不过，Kimi 的优势在于，生成类似结果时，无需额外的网络设置。

此外，Kimi 近期上线了付费会员方案，用户可以将之前的打赏金额抵扣为会员费。免费用户也能获得有限次数的 OK Computer 试用机会。

对比手机配置：OK Computer 的信息获取更聚焦于国际信源

基于 Kimi K2 的 Agentic 能力，OK Computer 能够自动浏览网页、搜索相关内容并生成图片来构建网站。

在这次手机对比测试中，OK Computer 的信息获取明显更全面、准确。它搜索网页内容时，主要采用 The Verge 等国际科技媒体信源，而 Kimi 深度研究则多使用简体中文网页。

▲ 提示词：帮我生成一个动态响应式布局的网站，适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求：联网获取这两款手机的最新资料，要有核心卖点对比，做好看的表格，突出相机、芯片、电池、价格等方方面面。要有这两个产品的横向比较，也要有纵向比较，例如是iPhone 17promax和 16 promax，还有小米 17promax 和 15 promax对比。还要给结论：哪个更加值得买？用简洁的 bullet point，总结优缺点。每一页都要简洁，不要太多字，但是信息要足够，多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/

OK Computer 还具备图片和音频生成功能。例如下面这张手机摄像头的拆解图，第一眼看上去非常惊艳。

Agent 交付：惊艳的 Demo，但距离实用仍有距离

经过测试，Kimi K2 的 Agentic 能力并非不行，但目前 Agent 类产品普遍停留在“我可以做出来一个东西，但不一定有用”的阶段。

无论是 PPT 制作、商业分析报告、旅游路线规划还是网页开发部署，几乎所有 Agent 都宣称能做，但真正能让人放心使用的成果，目前很难找到。

▲ GPDval 是一项新的评估方法，用于衡量模型在上图 44 个职业中，具有经济价值的现实任务上的表现

前几天 OpenAI 发布了一项新的基准测试 GDPval，被称为 AI Agent 的“职业技能大赛”。它不再考学术问答，而是选取了对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业任务。这些任务由平均有 14 年经验的专家设计，交付内容包含幻灯片、电子表格、CAD 文件等复杂格式，与 Agent 实际交付的成品类似。

GDPval 的出现，正是为了解决 Agent 从“我能做”到“我能做好”的转变。

▲ 专业评估员将对应模型的交付成果与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务（47.6%）中生成了被评为与人类同样好或更好的输出。

尽管这是 OpenAI 的研究，但第一名却是 Claude Opus 4.1。这也解释了为什么 Claude 模型在编程领域广受好评——它不仅能写代码，还能写出好代码。

Agent 难以做好的深层原因

OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab 曾指出，大语言模型出现的不确定性问题，不仅与 GPU 随机计算有关，还源于训练数据处理时缺少批次不变性。

更关键的原因是可用训练数据的不足。与训练生成图片、视频或文本不同，Agent 需要交付的内容复杂、现实世界任务繁多，难以归类到单一媒体类型。

▲ 和人类学习完成一项任务不同，大模型需要可以模拟的强化学习环境

目前常见的 Agent 任务多集中在制作 PPT、网页、预订餐厅、刷社交媒体、自动购物等，这些仅是现实世界的极小部分，而且这些任务往往缺乏明确的评估标准。

据 TechCrunch 报道，硅谷正在斥巨资为 Agent 构建“强化学习环境”（RL Environments）的模拟训练场。这些“环境”被一些 AI 公司创始人形容为“非常无聊的电子游戏”，例如模拟浏览器、模拟购物网站、模拟代码编辑器。

▲ 为了验证 Agent 任务完成情况，需要将整体任务分解成更小的步骤，并创建一个评分标准，来检查 AI 模型是否正确执行了每一个步骤。图片来源：https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

在这样的“环境”中，AI Agent 像新手玩家一样，通过一次次尝试、失败、获得奖励，学习如何独立完成购买商品、修复代码等复杂的多步骤任务。

当年李飞飞依靠海量的 ImageNet 数据集推动了计算机视觉的飞跃，如今 Agent 的发展似乎也遵循着同样的规律：如果缺乏大量标注的“强化学习环境”任务，Agent 很难达到像人脸识别那样可靠的深度学习技术水平。

▲ OK Computer 专辑封面，这是英国摇滚乐队 Radiohead 于 1997 年发行的第三张录音室专辑，距今已近三十年，曾获得多个重要奖项。

Kimi 一如既往地喜爱摇滚乐：公司名 Moonshot 致敬 Pink Floyd，而这次的 OK Computer 则致敬 Radiohead。

Apple Music 对《OK Computer》专辑的介绍语中，描述了人们在千禧年前夕对新技术的探索与反思：

尽管弥漫着恐惧忧郁的情绪，《OK Computer》仍保有希望，传达了社会前进之路未必会让我们失去善良的信念。

如果你对因科技而加快的生活节奏，感到难以招架的话，其实解法很简单，正如 Yorke 在结尾曲〈The Tourist〉最后所唱的：「傻瓜，放慢脚步吧」(Idiot, slow down)。

Kimi 今天推出的 OK Computer 似乎也在隐喻：科技正在改变我们的工作习惯，加快我们的生活节奏。但现实是，目前的 Agent 产品很难真正做到让人“难以招架”。

无论是 Kimi 还是 ChatGPT，以及其他同类 Agent 产品，在发布时总强调“我们的 Agent 有哪些功能，能做什么”，却很少提及“我们的 Agent 能做成什么效果”。

我们不必放慢脚步，因为真正的 OK Computer 还在努力追赶我们。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

Kimi新Agent「OK Computer」能规划国庆游吗？跟着AI旅游会踩雷吗？