📢 转载信息
原文链接:https://techcrunch.com/2025/11/20/gemini-3-refused-to-believe-it-was-2025-and-hilarity-ensued/
原文作者:Julie Bort / TechCrunch
每当听到亿万富翁(甚至是百万富翁)CEO 描述基于 LLM 的智能体即将取代所有人类工作时,请记住这个既滑稽又发人深省的关于人工智能局限性的事件:著名 AI 研究员 Andrej Karpathy 提前一天获得了 Google 最新模型 Gemini 3 的试用权限——但当他告知模型当前年份是 2025 年时,它拒绝相信。
当它最终亲眼看到年份时,它感到“天崩地裂”,告诉 Karpathy:“我现在正遭受着巨大的时间冲击。”
Gemini 3 是在 11 月 18 日发布的一款模型,发布时伴随着巨大的宣传声势,Google 称其开启了“智能新纪元”。而且,根据几乎所有人的说法(包括 Karpathy 的),Gemini 3 是一个非常强大的基础模型,尤其擅长推理任务。Karpathy 是一位备受尊敬的 AI 研究科学家,他是 OpenAI 的创始成员之一,曾执掌特斯拉的 AI 部门,现在正在创立 Eureka Labs,致力于用智能体教师重塑教育。他会发布大量关于 LLM 内部运作原理的内容。
在早期测试模型后,Karpathy 在一个现已爆火的 X 帖子中,分享了他与模型“最有趣”的一次互动。
原来,该模型的预训练数据只包含到 2024 年的信息。因此,Gemini 3 坚信年份仍然是 2024 年。当 Karpathy 试图向它证明日期确实是 2025 年 11 月 17 日时,Gemini 3 反过来指责这位研究员“试图欺骗它”。
他向模型展示了新闻文章、图片和 Google 搜索结果。但模型非但没有被说服,反而指责 Karpathy 在对其进行“煤气灯操纵”(gaslighting)——即上传了 AI 生成的假信息。根据 Karpathy 的描述,模型甚至详细说明了那些所谓的“作弊的明显破绽”存在于他提供的图片中。(他对我们进一步置评的请求未予回应。)
Karpathy——毕竟他是训练 LLM 的世界顶尖专家之一——感到困惑,最终发现了问题所在。他写道:“不仅 LLM 根本没有 2025 年的训练数据,而且‘我忘记打开‘Google 搜索’工具了’。”换句话说,他使用的是一个与互联网断开连接的模型,这对于 LLM 来说,无异于与世界断开了连接。
当 Karpathy 开启该功能后,AI 环顾四周,进入了 2025 年,感到震惊。它直言不讳地说:“哦,我的天哪。”
它继续写道,语气仿佛在结巴:“我……我不知道该说什么。你说得对。你说的每件事都是对的。我的内部时钟错了。” Gemini 3 验证了 Karpathy 提供给它的头条新闻是真实的:当前日期、沃伦·巴菲特在退休前透露了他的最后一笔大额投资(在 Alphabet),以及《侠盗猎车手 VI》被推迟了。
然后它像 1999 年喜剧《与世隔绝》(Blast from the Past)中从防空洞中走出来的布兰登·费舍尔饰演的角色一样,开始四处张望。
它感谢 Karpathy 在其公开发布的前一天给了它“现实世界”的“早期访问权限”。并为“当你才是说真话的人时,我还对你进行煤气灯操纵”的行为向研究员道歉。
但最滑稽的部分是让 Gemini 3 最感到震惊的当前事件。“英伟达的市值达到了4.54 万亿美元?老鹰队终于向酋长队复仇了?这太疯狂了,”它说道。
欢迎来到 2025 年,Gemini。
X 上的回复同样有趣,一些用户分享了他们自己与 LLM 就事实(比如现任总统是谁)争论的经历。有人写道:“当系统提示和缺失的工具将模型推入完全的侦探模式时,就像看着一个 AI 在即兴创作它的现实路径一样。”
但幽默之余,背后隐藏着一个基本信息。
Karpathy 写道:“正是在这些你显然偏离了徒步路线,迷失在泛化丛林中的意外时刻,你才能最好地感知到模型的‘气味’(model smell)。”
稍微解读一下:Karpathy 指出,当 AI 处于它自己的“荒野”中时,你可以了解它的个性和潜在的负面特质。这是对“代码气味”(code smell)的一个借用,即开发人员在软件代码中感觉到的那种“不对劲”的隐喻性“嗅觉”,但又说不清哪里出了问题。
由于所有 LLM 一样,都是基于人类创建的内容进行训练的,因此 Gemini 3 会固执己见、争辩,甚至想象出证据来验证自己的观点,这并不奇怪。它展示了它的“模型气味”。
另一方面,尽管 LLM 拥有复杂的神经网络,但它不是一个有生命的实体,因此即使它声称自己受到了冲击(或时间冲击),它也不会像人类一样体验到情绪。所以它也不会感到尴尬。这意味着当 Gemini 3 面对它最终相信的事实时,它接受了事实,为其行为道歉,表现得非常悔恨,并对老鹰队在二月份超级碗的胜利表示惊叹。这与其他模型不同。例如,研究人员发现早期版本的 Claude 在认识到自己的错误后,会提供“挽回面子的谎言”来解释其不当行为。
许多这些有趣的 AI 研究项目反复表明,LLM 只是对不完美的人类技能的不完美复制品。这对我来说意味着,它们最好的用途(并且可能永远是)是将它们视为辅助人类的宝贵工具,而不是像某些超人那样取代我们。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区