📢 转载信息
原文链接:https://openai.com/index/first-proof-submissions
原文作者:OpenAI
我们正在分享我们为 First Proof 提交的证明尝试,这是一个旨在测试AI是否能够在特定领域问题上生成可验证证明的数学挑战赛。
我们针对所有10个First Proof问题运行了一个内部模型。First Proof 是一个研究级别的数学挑战赛,旨在测试AI系统是否能生成正确、可验证的证明尝试。与短答案或竞赛式数学不同,这些问题需要在专业领域中构建端到端的论证,并且如果没有专家评审,很难确定其正确性。First Proof 问题的作者是各自领域的顶尖专家,其中至少有几个问题在作者找到解决方案之前已经悬而未决多年。一个与这些学科有很大重叠的学术部门,理论上可以在一周内解决其中许多问题。
我们于太平洋时间2026年2月14日星期六12:00 AM分享了我们的证明尝试。根据专家的反馈,我们相信模型至少有五项证明尝试(问题4、5、6、9和10)有很大概率是正确的,其他几项仍在审查中。我们最初认为问题2的尝试很可能是正确的。根据First Proof的官方评论和社区的进一步分析,我们现在认为它是错误的。我们感谢社区的参与,并期待持续的审查。我们完整的证明尝试集可以在这里找到。该预印本包含了所有十项证明尝试,以及一个新增加的附录,其中包含旨在模拟我们在过程中与模型进行手动交互的提示模式和示例。
我们认为新颖的前沿研究或许是评估下一代AI模型能力的最重要方式。基准测试很有用,但它们可能会遗漏研究中最困难的部分:维持长链推理、选择正确的抽象、处理问题陈述中的模糊性以及生成能够经受专家审查的论证。像First Proof这样的前沿挑战赛有助于我们在正确性难以验证且失败模式具有信息性的场景中,对这些能力进行压力测试。
“我们目前正在训练一个新模型,其主要重点是提高其思维的严谨程度,目标是使模型能够连续思考数小时并对其结论保持高度自信。当First Proof问题发布时,它似乎是完美的试验场,所以我在周末试用了它。它已经能够解决其中两个问题(#9和#10)。随着训练的进行,它的能力越来越强,最终,在我们估计中,解决了至少另外三个问题。当它解决了#6,然后在两天后解决了#4时,我们特别高兴,因为这些问题来自我们许多人熟悉的领域。看着一个模型日复一日地变得更聪明,真是令人难以置信。”
– James R. Lee (OpenAI 研究员,推理方向)
我们在有限的人工监督下运行了该模型。在沿着训练过程提示模型的不同版本时,我们有时会建议在早期尝试中显示出希望的重试策略。对于某些尝试,在收到专家反馈后,我们要求模型扩展或澄清证明的某些部分,以使推理更易于验证。我们还促成了该模型与ChatGPT之间在验证、格式化和风格方面的来回沟通。对于某些问题,我们呈现了由人工判断选出的最佳几次尝试之一。这是一次快速冲刺,我们的过程不如我们在受控评估中所希望的那样干净。我们期待与First Proof组织者讨论,为未来迭代建立更严格的实验和评估框架。
这项工作建立在我们在数学和科学前沿推理模型上的早期成果之上。2025年7月,我们使用一个通用推理模型在国际数学奥林匹克竞赛中达到了金牌水平的表现(35/42分)。2025年11月,我们分享了“使用GPT‑5加速科学的早期实验”,这是一系列案例研究,其中GPT-5在数学、物理、生物学和其他领域帮助研究人员取得了具体进展,同时也记录了我们观察到的局限性。最近,我们报告了一项物理学协作,其中GPT-5.2提出了一个胶子-振幅公式的候选表达式,该表达式随后由内部模型正式证明并经作者验证。
我们期待与社区就如何评估研究级推理进行更深入的交流,包括专家对这些尝试的反馈,并很高兴能在未来的公共模型中提供这些新能力。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区