📢 转载信息
原文链接:https://techcrunch.com/2026/01/14/ai-models-are-starting-to-crack-high-level-math-problems/
原文作者:Russell Brandom
在上周末,软件工程师、前量化研究员和初创公司创始人Neel Somani在测试OpenAI新模型的数学能力时有了一个意想不到的发现。在将问题粘贴到ChatGPT中并让它思考了15分钟后,他回来时看到了一个完整的解。他对证明进行了评估,并使用一个名为Harmonic的工具将其形式化——结果都得到了验证。
Somani说:“我很好奇,想确定大型语言模型(LLM)在有效解决开放性数学问题与它们感到吃力的地方之间的基线。” 令人惊讶的是,使用最新的模型,这一前沿有所推进。
ChatGPT的思维链更令人印象深刻,它滔滔不绝地引用了如勒让德公式、伯特兰公理和大卫之星定理等数学公理。最终,该模型找到了2013年Math Overflow上的一篇帖子,其中哈佛数学家Noam Elkies对一个类似问题给出了一个优雅的解法。但ChatGPT的最终证明在重要方面与Elkies的工作有所不同,并为传奇数学家保罗·埃尔德什(Paul Erdős)提出的问题的一个版本提供了更完整的解决方案,埃尔德什的大量未解难题已成为人工智能的试金石。
对于任何怀疑机器智能的人来说,这是一个令人惊讶的结果——而且并非唯一的一个。人工智能工具在数学中已经无处不在,从像Harmonic的Aristotle这样的形式化导向的LLM到像OpenAI的深度研究这样的文献综述工具。但自从发布GPT 5.2(Somani形容它“在数学推理方面比前几代更熟练”)以来,已解决问题的纯粹数量变得不容忽视,引发了关于大型语言模型推动人类知识前沿能力的新问题。
Somani关注的是埃尔德什问题,这是一组由这位匈牙利数学家提出的、在线维护的超过一千个猜想。这些问题已成为AI驱动的数学的诱人目标,它们在主题和难度上都有显著差异。第一批自主解法是在11月由一个名为AlphaEvolve的Gemini驱动的模型通过一篇论文得出的——但最近,Somani等人在使用GPT 5.2解决高等数学问题时发现它非常擅长。
自圣诞节以来,埃尔德什网站上的15个问题已从“未解决”变为“已解决”——其中11个解决方案明确将人工智能模型视为过程的一部分。
备受尊敬的数学家陶哲轩(Terence Tao)在他的GitHub页面上对进展进行了更细致的观察,他统计了AI模型在埃尔德什问题上取得有意义的自主进展的八个不同问题,以及另外六个通过定位和构建先前研究取得进展的案例。这距离人工智能系统能够在没有人为干预的情况下进行数学运算还有很长的路要走,但很明显,大型模型将发挥重要作用。
在Mastodon上,陶哲轩推测,人工智能系统的可扩展性使其“更适合系统地应用于那些晦涩的埃尔德什问题‘长尾’部分,其中许多实际上有直截了当的解决方案。”
陶哲轩继续说道:“因此,许多这些较容易的埃尔德什问题现在更有可能通过纯粹的AI方法而非人类或混合方法来解决。”
另一个推动力是最近转向形式化,这是一个劳动密集型的任务,可以使数学推理更容易验证和扩展。形式化不需要使用人工智能甚至计算机,但新一代的自动化工具已使这一过程变得容易得多。微软研究院于2013年开发的开源“证明助手”Lean,已在该领域被广泛用作形式化证明的方式——而像Harmonic的Aristotle这样的AI工具则有望自动化形式化的很大一部分工作。
对于Harmonic创始人Tudor Achim来说,已解决的埃尔德什问题的突然增加不如世界顶尖数学家开始认真对待这些工具这一点更重要。“我更关心的是数学和计算机科学教授正在使用[AI工具],”Achim说。“这些人有声誉需要维护,所以当他们说他们使用Aristotle或他们使用ChatGPT时,这就是真实的证据。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区