📢 转载信息
原文链接:https://www.nature.com/articles/s41586-025-09833-y
原文作者:Thomas Hubert, Rishi Mehta, Laurent Sartran, Miklós Z. Horváth, Goran Žužić, Eric Wieser, Aja Huang, Julian Schrittwieser, Yannick Schroecker, Hussain Masoom, Ottavia Bertolli, Tom Zahavy, Amol Mandhane, Jessica Yung, Iuliya Beloshapka, Borja Ibarz, Vivek Veeriah, Lei Yu, Oliver Nash, Paul Lezeau, Salvatore Mercuri, Calle Sönne, Bhavik Mehta, Alex Davies, Daniel Zheng, Fabian Pedregosa, Yin Li, Ingrid von Glehn, Mark Rowland, Samuel Albanie, Ameya Velingker, Simon Schmitt, Edward Lockhart, Edward Hughes, Henryk Michalewski, Nicolas Sonnerat, Demis Hassabis, Pushmeet Kohli & David Silver
摘要
人工智能领域的一个长期目标是构建能够在广阔领域中进行复杂推理的系统,而数学正是这一任务的缩影,它拥有无限的概念和对严格证明的要求。最近的人工智能系统通常依赖于人类数据,往往缺乏保证正确性的形式化验证。相比之下,像Lean1这样的形式化语言提供了一个以推理为基础的交互环境,而强化学习(RL)则提供了在这种环境中学习的机制。我们提出了AlphaProof,一个受AlphaZero2启发的智能体,它通过强化学习在数百万个自动形式化问题上进行训练,从而学习寻找形式化证明。对于最困难的问题,它使用测试时强化学习(Test-Time RL),这是一种在推理时生成并从数百万个相关问题变体中学习的方法,以实现深度、特定于问题的适应。AlphaProof 大幅提高了历史数学竞赛问题上的最先进结果。在2024年国际数学奥林匹克(IMO)竞赛中,我们的AI系统以AlphaProof为核心推理引擎,解决了五道非几何问题中的三道,其中包括竞赛中最难的问题。与AlphaGeometry 23相结合,经过多日计算实现的这一性能,使其达到了银牌得主的同等分数,标志着AI系统首次在数学竞赛中达到奖牌水平的表现。我们的工作证明了从基础经验中进行规模化学习可以产生具有复杂数学推理策略的智能体,为复杂数学问题求解中可靠的AI工具铺平了道路。
您可以通过您的机构完全访问本文。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区