📢 转载信息
原文链接:https://www.nature.com/articles/d41586-025-03959-9
原文作者:Mohana Basu
中国人工智能公司 DeepSeek 发布了一款能够识别并修正自身错误的数学推理模型。该模型在世界上最负盛名的本科生数学竞赛中,其表现已与顶尖人类选手不相上下。
该模型,名为 DeepSeekMath-V2,在 2024 年威廉·洛厄尔·普特南数学竞赛(William Lowell Putnam Mathematical Competition)的试题中获得了 120 分中的 118 分,超过了人类最高分 90 分的成绩。此外,该模型在 2025 年国际数学奥林匹克(IMO)和 2024 年中国数学奥林匹克中的表现也达到了金牌得主的水平。这些成果在 11 月 27 日发布于 arXiv 上的预印本 ${^1}$ 中进行了描述。
伦敦帝国理工学院的数学家 Kevin Buzzard 评论道:“我们正处于一个 AI 在数学能力上与聪明的本科生不相上下的阶段。这非常令人兴奋。”
今年二月,谷歌 DeepMind 在伦敦开发的 AI 问题求解器 AlphaGeometry 2 也曾在 IMO 中达到金牌水平。七月份,DeepMind 旗下的 Gemini 的 Deep Think 也重复了这一壮举。
超越答案的推理
预印本的作者们指出,早期训练大型语言模型进行数学推理的方法主要关注最终答案的准确性。然而,一个正确的答案并不能保证推理过程的正确性。有时,正确的最终答案可能仅仅是由于一个侥幸的错误造成的。此外,在证明数学定律或公式时,如果逻辑推理比最终答案更重要,那么仅仅关注最终结果的方法就失去了用处。
澳大利亚新南威尔士大学(UNSW Sydney)专注于 AI 驱动发现的化学家 Tong Xie 表示,DeepSeek 以及 Gemini 的 Deep Think 的研究人员一直在致力于解决这个问题,他们将重点从最终答案转向了推理过程本身。
DeepSeekMath-V2 首次引入了自我可验证的数学推理。该模型包含一个经过训练的“验证器”(verifier),用于评估基于一系列逐步推导构建的数学证明,以识别逻辑缺陷并根据证明的严谨性打分。随后,一个“元验证系统”(meta-verification system)会检查验证器的批判是否准确,从而降低了“幻觉”(hallucinations)的可能性并提高了可信度。这些组件与一个“证明生成器”(proof generator)协同工作,该生成器构建解决方案并评估自身工作,不断完善论证,直到找不到进一步的问题为止。
这种设计创造了一个反馈循环:验证器改进生成器,而生成器产生的更具挑战性的证明,则成为强化验证器的新训练数据。
该系统在 2025 年 IMO 的六道题中解决了五道,得分为 83.3%。然而,它无法解决 2025 年和以往 IMO 中设置的最难题。
Xie 提到,Math-V2 依赖于模型内部使用自然语言进行的自我验证。这减少了人为干预,使模型更具成本效益和可扩展性。
相比之下,Gemini 的 Deep Think 使用一种名为 Lean 的外部符号语言来验证数学推理,其验证过程需要大量的专家输入。Xie 指出,这种方法几乎没有出现幻觉,但计算成本高昂且资源密集。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区