📢 转载信息
原文链接:https://openai.com/index/gpt-5-2-for-science-and-math
原文作者:OpenAI
2025年12月11日
利用GPT-5.2推进科学与数学研究
GPT‑5.2 是我们迄今为止在数学和科学工作中表现最强大的模型。
我们对强大的人工智能的期望之一是,它能够造福于每个人,加速科学研究,帮助研究人员探索更多想法,更快地进行测试,并将发现转化为实际影响。
在过去的一年里,我们与数学、物理学、生物学和计算机科学领域的科学家密切合作,以了解人工智能可以在哪里提供帮助,以及在哪里仍然存在不足。上个月,我们发表了一篇论文,汇总了数学、物理学、计算机科学、天文学和材料科学等领域的早期案例研究,其中 GPT‑5 帮助研究人员展示了它已开始对真正的科学工作做出贡献。有了 GPT‑5.2,我们开始看到这些优势变得更加一致和可靠。
在精度至关重要的领域表现更强
GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是我们迄今为止在科学和数学工作中最强大的模型。
强大的数学推理是科学和技术工作中可靠性的基础。它使模型能够遵循多步逻辑、保持数量一致性,并避免在实际分析中可能累积的细微错误——这些分析涵盖了从模拟和统计到预测和建模的各个方面。在像 FrontierMath 这样的基准测试上的改进,体现的不是单一的技能,而是更强的通用推理和抽象能力,这些能力直接应用于诸如编码、数据分析和实验设计等科学工作流程中。
这些能力也与通用人工智能(AGI)的进展密切相关。一个能够可靠地通过抽象进行推理、在长串思考中保持一致性并跨领域泛化,这些都展示了AGI的基础性特征——不是针对特定任务的技巧,而是对科学、工程和现实世界决策至关重要的广泛、可迁移的推理技能。
我们相信 GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是世界上最适合协助和加速科学家的模型。在研究生级别的、Google-proof 的问答基准测试 GPQA Diamond 上,GPT‑5.2 Pro 取得了 93.2% 的成绩,紧随其后的是 GPT‑5.2 Thinking,取得了 92.4% 的成绩。
在 GPQA Diamond(在新窗口中打开) 中,模型回答有关物理学、化学和生物学的多项选择题。未启用任何工具,推理努力设置为最大值。
在专家级数学评估 FrontierMath (Tier 1–3) 上,GPT‑5.2 Thinking 设定了新的最先进水平,解决了 40.3% 的问题。
在 FrontierMath(在新窗口中打开) 中,模型解决了专家级别的数学问题。启用了 Python 工具,推理努力设置为最大值。
案例研究
GPT‑5.2 不仅擅长研究生级别的科学问题。我们现在经常看到我们的前沿模型为数学和科学中先前未解决的、且日益微妙的问题提供解决方案。
在这个案例研究中,我们描述了 GPT‑5.2 Pro 如何帮助解决统计学习理论中的一个开放研究问题,该问题记录在一篇新论文中,即 关于最大似然估计量的学习曲线单调性(在新窗口中打开)。
这个问题(“如果你收集更多数据,你的结果是否会可靠地变得更好?”)在每次你从数据中拟合模型时都会出现。你可以画出一条学习曲线,追踪随着你添加更多示例而变化的平均误差。在最好的情况下,曲线是单调的。更多的数据意味着每一步的误差都会减少。这是人们所期望,并且通常假设的行为。
但在过去几年中,研究人员发现这种直觉可能会失效。Viering、Mey 和 Loog 在 2019 年于学习理论会议 (COLT) 上提出了一个开放问题,引发了一系列研究工作,表明即使在非常简单、表现良好的玩具设置中,学习曲线也可能出现非单调性,即添加数据反而会增加预期误差。这一意外触发了一波后续论文。它们扩展了出现反转情况的设置列表,并提出了越来越精细的方法来恢复单调行为。
然而,最基本的情况之一仍然没有解决。在最干净的教科书情况下会发生什么?即统计模型实际上是正确的,数据遵循熟悉的钟形曲线模式,具有已知的均值但未知的标准差?研究人员已经知道,对该设置进行微小更改可能会破坏单调行为。但在这一核心情况下,答案仍然未知。
我们的新论文证明,在这种干净的设置中,直觉占了上风:学习会随着更多数据而可预测地得到改善,而不是表现出令人惊讶或不稳定的方式。这篇论文的独特之处在于证明的获取方式。作者没有制定策略,然后要求模型填写步骤。他们没有提供中间论点或证明大纲。相反,他们直接要求 GPT‑5.2 Pro 解决这个开放问题,然后仔细验证了证明,包括外部主题专家的审查和验证。
然后,作者提出了一些简单的后续问题,以了解该想法能走多远。GPT‑5.2 Pro 将结果从原始问题扩展到了更高维度的设置和其他常见的统计模型。在整个过程中,人类的作用仍然集中在验证和清晰的书写上,而不是提供数学脚手架。
展望未来
这一结果为人工智能系统如何支持科学研究指明了一个有用的方向,特别是在具有公理理论基础的领域,如数学和理论计算机科学。在这些场景中,前沿模型可以帮助探索证明、检验假设以及识别那些可能需要大量人工努力才能发现的联系。
与此同时,这些系统并非独立的研究人员。专家的判断、验证和领域理解仍然至关重要。即使是非常强大的模型也可能犯错或依赖未说明的假设。但它们也能产生值得人类仔细研究和完善的详细、结构化的论证。因此,与人工智能一起取得可靠的进展取决于将验证、透明度和协作牢牢置于循环中的工作流程。
从案例研究的角度来看,这一结果说明了一种新兴的研究实践模式。像 GPT‑5.2 这样的模型可以作为支持数学推理和加速早期探索的工具,而正确性、解释和背景的责任仍然在于人类研究人员。谨慎使用这些系统可能会帮助简化理论工作的显著方面,而不会取代人类判断在科学探究中的核心作用。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区