📢 转载信息
原文作者:Will Douglas Heaven
谷歌DeepMind首席执行官Demis Hassabis用三个词总结了现状:“这太丢人了。”
Hassabis在X平台上回复了竞争对手OpenAI研究科学家Sébastien Bubeck的一条过度兴奋的帖子,Bubeck宣布两位数学家利用OpenAI最新的大型语言模型GPT-5解决了10个未解的数学难题。“通过人工智能加速科学进程已经正式开始,”Bubeck洋洋得意地宣布。
现在,请拿出你的数学帽,让我们来看看这场发生在十月中旬的争论是怎么回事。这完美地体现了当下人工智能领域存在的问题。
Bubeck对GPT-5似乎“解决”了被称为Erdős problems(埃尔德什问题)的一系列难题感到兴奋。
保罗·埃尔德什是20世纪最多产的数学家之一,他去世时留下了数百个难题。为了帮助追踪哪些问题已被解决,英国曼彻斯特大学的数学家Thomas Bloom在erdosproblems.com上建立了网站,列出了1100多个问题,并指出其中约有430个已有解法。
当Bubeck庆祝GPT-5的突破时,Bloom迅速在X上指出了他的错误。“这是一种严重的误传,”他写道。Bloom解释说,一个问题不一定因为这个网站没有列出解法就意味着它没有被解决。这仅仅意味着Bloom不知道有解法。互联网上有数百万篇数学论文,没有人读过所有这些论文。但GPT-5可能读过。
结果是,GPT-5并没有为10个未解问题提出新的解决方案,而是 scouring the internet for 10 existing solutions that Bloom hadn’t seen before. 呃,搞砸了!
这里有两个启示。一是关于重大突破的惊人言论不应该通过社交媒体发布:少一些冲动反应,多一些理性思考(Less knee jerk and more gut check)。
二是GPT-5能够找到Bloom未曾察觉的先前研究引用的能力本身也是惊人的。炒作掩盖了本应非常酷的东西。
当我与研究人工智能初创公司Axiom Math的研究科学家François Charton谈论这次埃尔德什问题的小插曲时,他告诉我,数学家们对使用LLM来梳理海量的现有结果非常感兴趣。
但与真正的发现相比,文献搜索是枯燥的,尤其对于社交媒体上狂热的AI拥护者来说。Bubeck的失误并非孤例。
八月份,两位数学家证明当时没有任何LLM能够解决一个名为“Yu Tsumura第554号问题”的数学难题。两个月后,社交媒体上充斥着GPT-5现在能够解决这个问题的证据。“李世石时刻即将来临,”一位观察者评论道,指的是2016年围棋大师李世石输给了DeepMind的AI AlphaGo。
但Charton指出,解决Yu Tsumura第554号问题对数学家来说并不是什么大事。“这是你会给本科生的问题,”他说。“有一种过度夸大一切的倾向。”
与此同时,关于LLM擅长或不擅长哪些方面的更审慎的评估也正在出现。就在数学家们在互联网上为GPT-5争论不休时,两项新研究深入分析了LLM在医学和法律领域的应用(这两个领域都是模型制造商声称其技术表现出色的领域)。
研究人员发现LLM可以做出某些医疗诊断,但它们在推荐治疗方案方面存在缺陷。在法律方面,研究人员发现LLM的建议往往不一致且不正确。“迄今为止的证据完全未能达到举证责任的要求,”作者总结道。
但这并不是在X上传播的受欢迎的消息。“你之所以感到兴奋,是因为每个人都在疯狂交流——没有人想落后,”Charton说。X是许多AI新闻首次发布的地方,是新成果被大肆宣传的地方,也是像Sam Altman、Yann LeCun和Gary Marcus这样的关键人物公开交锋的地方。跟上节奏很难——但更难的是移开视线。
Bubeck的帖子之所以尴尬,仅仅是因为他的错误被抓住了。但并非所有错误都能被发现。除非情况发生变化,否则研究人员、投资者和非特定的拥护者将继续相互吹捧。“他们中有些人是科学家,许多人不是,但他们都是书呆子,”Charton告诉我。“巨大的声明在这些网络上非常有效。”
*****
有一个后续报道!我在《麻省理工科技评论》2026年1/2月号(即将发行)的“算法”专栏中写了以上所有内容。就在该期杂志付印两天后,Axiom告诉我,他们自己的数学模型AxiomProver已经解决了两个开放的埃尔德什问题(数学爱好者们注意了,是#124和#481)。对于一个仅成立几个月的小型初创公司来说,这确实令人印象深刻。是的——人工智能发展迅猛!
但这还不是全部。五天后,该公司宣布AxiomProver解决了今年Putnam competition(普特南数学竞赛)中12个问题中的9个,这是一项大学水平的数学挑战,一些人认为它比更知名的国际数学奥林匹克(IMO)(谷歌DeepMind和OpenAI的LLM在几个月前轻松应对了IMO)更难。
这次普特南竞赛的结果在X上受到了该领域大人物的赞扬,包括谷歌DeepMind首席科学家Jeff Dean和AI公司Hugging Face联合创始人Thomas Wolf。熟悉般的争论再次在回复中展开。一些研究人员指出,虽然国际数学奥林匹克更考验创造性的问题解决能力,但普特南竞赛考验的是数学知识——这使得它对本科生来说出了名地困难,但理论上对已经摄取了互联网信息的LLM来说更容易。
我们应该如何评判Axiom的成就?至少不应该在社交媒体上。而这些引人注目的竞赛胜利仅仅是一个起点。要确定LLM在数学方面到底有多好,需要深入研究这些模型在解决困难(即对人类来说困难)的数学问题时到底在做什么。
本文最初发表在我们的每周AI通讯“算法”中。如需第一时间在收件箱中获取此类文章,请点击此处订阅。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区