📢 转载信息
原文链接:https://openai.com/index/accelerating-science-gpt-5
原文作者:Kevin Weil
2025年11月20日
科学塑造着人类健康、能源生产、国家安全以及我们对宇宙的理解。如果人工智能能够加速科学——缩短产生新想法或将想法转化为经过验证的结果所需的时间——那么其带来的益处将惠及整个社会。
但创新的步伐仍然是一个限制因素。即使正确的想法存在,将其转化为产品或治疗方法也可能需要数年时间。在最近的一项调查中,60% 的美国人认为科学和医学突破到达他们手中太慢;73% 的人认为我们需要更好的方法来加速发现;69% 的人将科学领导力列为国家优先事项。
今天,我们发布了由范德堡大学、加州大学伯克利分校、哥伦比亚大学、牛津大学、剑桥大学、劳伦斯利弗莫尔国家实验室和杰克逊实验室等大学和国家实验室的合作者共同撰写的论文《GPT‑5 加速科学的早期实验》。该论文汇集了数学、物理学、生物学、计算机科学、天文学和材料科学领域的早期案例研究,其中 GPT‑5 帮助研究人员以新颖的方式综合已知结果、进行强大的文献回顾、加速艰难的计算,甚至生成未解命题的新颖证明。该论文还记录了局限性。我们的目标是让社区清晰地了解这些系统在研究环境中的现状和局限。
这些案例研究展示了在专家手中,GPT‑5 如何加速科学发现,以及这种加速为何重要:
- 生物学:在 Derya Unutmaz 博士领导的一项研究中,科学家们花了数月时间试图解释人类免疫细胞中一个令人困惑的变化。GPT‑5 在几分钟内从一份未发表的图表中确定了可能的机制,并提出了一个实验,该实验证明了这一机制。这种速度有助于研究人员更快地理解疾病并开发更好的治疗方法。
- 数学:在另一个案例中,研究人员 Mehtaab Sawhney 和 Mark Sellke 正在解决 Paul Erdős 提出的一个年代久远的开放性问题。他们在最后一步卡住了,GPT‑5 提出了关于一个奇数如何打破模式的新想法,帮助他们完成了证明。这样的进步加强了许多算法和安全技术最终依赖的数学基础。
- 算法与优化:研究人员 Sébastien Bubeck 和 Christian Coester 正在测试机器人和路由中常用的决策方法是否像人们通常认为的那样可靠。GPT‑5 发现了一个新的、清晰的例子,证明该方法可能会失败,并且改进了优化中的一个经典结果——优化是确定解决问题的最佳方法的数学方法。这类进展有助于工程师更好地理解机器人、路由和其他现实世界应用中使用的决策系统。
什么是 OpenAI for Science?
OpenAI for Science 的使命是加速科学发现:帮助研究人员探索更多想法,更快地检验假设,并发现那些原本需要大量时间的见解。我们通过将前沿模型与正确的工具、工作流程和协作相结合来实现这一目标。
我们与学术界、工业界和国家实验室的研究人员密切合作。这些合作有助于我们了解模型在哪里有用、在哪里失败,以及如何将它们集成到科学过程中——从文献回顾和证明生成到建模、模拟和实验设计。
我们的方法结合了两种互补的信念。专业的科学工具,如模拟引擎、蛋白质数据库和计算机代数系统,对效率和精度至关重要。与此同时,扩展基础模型持续解锁新的推理能力:跨领域连接想法、勾勒证明、提出机制,以及概念性地而非仅通过关键词来驾驭庞大的文献。在存在专业工具的地方,我们希望使用它们;在需要通用推理的地方,我们构建旨在处理这种情况的模型。这两种途径相互加强。
科学家们今天如何使用 GPT‑5
最有意义的进展来自人机团队。科学家设定议程:他们定义问题、选择方法、批判想法并验证结果。GPT‑5 贡献了广度、速度以及并行探索多个方向的能力。
有效使用 GPT‑5 是一项技能。研究人员需要学习如何提出问题、何时坚持、如何将问题分解为步骤,以及需要独立验证哪些内容。富有成效的工作通常表现为对话——研究人员和模型不断迭代,直到出现有希望的方向或想法被摒弃。
GPT‑5 在科学工作中的现状
在这些早期研究中,GPT‑5 在被专家使用时,似乎能够缩短研究工作流程的某些部分。它不会自主运行项目或解决科学问题,但它可以扩大探索的范围,并帮助研究人员更快地接近正确的结果。
- 一项新兴能力是概念性文献搜索。GPT‑5 通常能够识别想法之间更深层次的关系,并从语言不同或不太容易获取的来源中检索相关材料。研究人员报告称找到了他们以前不知道的参考文献、联系和论点。
- 在数学和理论计算机科学等结构明确、反馈循环快速的领域,GPT‑5 尤其有帮助。数学家们利用 GPT‑5 在几分钟内生成了可行的证明大纲,这将原本可能需要数天或数周的工作转化而来。在物理学和计算领域,该模型可以提出简化变换,或指出其他领域中结构相似的概念。
- 在生物学和其他实证科学中,该模型可以提出机制并设计实验来验证这些假设在湿实验室中的有效性。
我们已经超越了模型仅总结现有知识的阶段。现在,GPT‑5 的早期贡献可以在专家监督下有意义地协助研究人员。改进的速度表明,随着能力的提升和工具的完善,未来可能实现更深层次的加速。
实践中的情况:几个案例研究
在前沿科学中独立重新发现已知结果
优化是寻找“最佳”方案的一种数学手段,例如最低训练损失或最短网络路径。梯度下降法则是一种基础优化方法,通过沿函数持续小步下行实现。Guy Barzilai、Ohad Shamir 与 Moslem Zamani 近期提出一项定理,探讨梯度下降法遍历的数值序列何时会随时间的推移形成凸曲线(即无凹点的曲线),使算法的行为更易分析和控制。论文初版仅论证了极小的保守步长。
Sébastien Bubeck 将较弱的结果版本输入 GPT‑5,询问其能否改进条件。该模型提出了更精确的步长边界及更简洁的标准证明,并由 Bubeck 亲自验证;在延长思考时间后,该模型的内部运行甚至从头推导出了最优边界。
GPT‑5 的贡献:GPT‑5 帮助 Sébastien Bubeck 探索更精确的步长条件,针对近期提出的凸优化定理生成更清晰的证明建议,并由 Bubeck 独立验证。
在广义相对论中,旋转黑洞由克尔解描述,其周围传播的波动则需满足复杂的微分方程。物理学家致力于探寻此类方程的对称性(即保持方程形态不变的转换),因为对称性会导致数量守恒且结构简洁。Alex Lupsasca 近期的研究表明,克尔波动方程存在 SL(2,ℝ) 代数构成的隐藏对称结构,这有助于解释特定潮汐响应消失的原因。
当我们直接向 GPT‑5 Pro 询问完整的克尔问题时,它最初未能识别任何有意义的对称性。在 Lupsasca 提供平面空间中相同结构的简化“预热”版本后,我们又返回克尔案例;这一次,经过约 18 分钟的内部推理,该模型输出了闭合为 SL(2,ℝ) 的完整对称生成元集合,且与人类的研究成果相吻合。
GPT‑5 的贡献:GPT‑5 Pro 在给定适当的预热问题后重建了克尔黑洞波动方程的隐藏 SL(2,ℝ) 对称代数,Lupsasca 证实了这一输出结果。
如何维持有益 T 细胞的活性与持久性,同时避免其陷入衰竭与功能失调状态,是现代免疫疗法 — 尤其是依赖工程化 T 细胞的 CAR-T 癌症治疗中的核心课题。现有文献表明,短暂限制葡萄糖代谢可以持续重编程 T 细胞,使其更具促炎性。在一项早期研究中,Derya Unutmaz 及其同事曾使用 2-脱氧葡萄糖 (2DG) 短暂处理人类 CD4+ T 细胞(免疫细胞的关键类别),这种化合物会干扰葡萄糖代谢。在移除 2DG 并用 IL-2(一种指示 T 细胞增殖的信号分子)激活 CD4+ T 细胞后,他们观察到细胞持续向促炎性 Th17 样状态转化(这类 T 细胞亚群同时参与免疫保护与自身免疫疾病过程),并耗时数月开展实验和阅读文献,最终提出解释这一效应的合理机制。
数年后,他向 GPT‑5 Pro 展示了一张未发表的流式细胞术散点图,其中包含经由不同葡萄糖与 2DG 水平处理后各 T 细胞亚群的分布状态,要求该模型解读数据成因并设计后续实验方案。经过大约十几分钟的反复论证,该模型指出激活过程中N-链糖基化(细胞将糖链与蛋白质结合的机制)紊乱是核心驱动因素,并预测记忆 T 细胞(而非初始 T 细胞)是主要作用群体。随后,GPT‑5 提出具体的后续实验方案,包括一项精巧的甘露糖补救实验:在不恢复糖酵解的前提下恢复 N-链糖基化功能。该实验室此前已完成甘露糖补救实验,其结果与模型预测完全吻合。
随后,GPT‑5 Pro 分析了经 2DG 脉冲处理的 CD8+ T 细胞未公开数据,并预测在 CAR-T 生成过程中短暂暴露于 2DG 将提升其对靶向癌细胞株的杀伤效率。GPT‑5 Pro 的预测与实验室未公开的实验数据相符。
GPT‑5 的贡献:GPT‑5 通过分析未公开数据,推导出非显而易见的高价值机制假设,识别出起效的 T 细胞亚群,并提出了后续实验方案,Unutmaz 实验室随后对这些建议进行测试与验证。
Deep literature search
Nikita Zhivotovskiy 及其合作者证明了一项新的凸几何定理 — 研究“行为良好”的几何形状,其中任意两点间的线段均位于形状内部。凸几何是机器学习和统计领域中诸多模型的基础。完成定理后,下一个问题自然是:这一研究成果还能在哪些领域发挥作用?
Zhivotovskiy 并未采用手动搜索相关术语和检索文献的传统方式,而是向 GPT‑5 输入定理的规范表述,并询问其潜在关联领域。该模型指向了密度估计、学习理论与多目标优化等领域的研究,并提供了具体的参考文献,其中包括 Zhivotovskiy 未曾接触的研究成果及多语种资料。
GPT‑5 的贡献:GPT‑5 帮助 Nikita Zhivotovskiy 识别多个领域的具体联系和参考文献,包括其未曾接触的材料。
Paul Erdős 提出了一千多个问题,其中许多问题都由公开网站追踪记录。部分问题仍标注为“待解决”状态,即使冷门期刊或非英语论文中已有相关解决方案。Mehtaab Sawhney 与 Mark Sellke 使用 GPT‑5 作为该数据库的文献检索助手:针对每个待解决的问题,要求模型搜寻现有解决方案或重大阶段性进展。
GPT‑5 针对多个仍标记为“待解决”的问题确定完整解决方案,同时识别其他问题的关键阶段性成果,并指出某问题陈述中存在刊印错误。针对 Erdős 问题 #848,网站上的公开讨论已构建大部分论证框架;GPT‑5 提出了关键密度估算思路,经 Sawhney 与 Sellke 修正完善后,最终形成闭合该问题的完整证明。
GPT‑5 的贡献:GPT‑5 协助确定遗漏的解决方案,并提出密度估算思路,Sawhney 和 Sellke 则将其完善为 Erdős 问题 #848 的完整证明。
纠错码通过增加数据的冗余度,确保比特位受损时仍能恢复信息。该项目探讨了一种特殊的二进制代码:每个代码的位置对应图中的一条边,其核心目标是排除任何呈现“团”结构(即完全连通的节点集)的码字。核心挑战在于确定需要多少奇偶校验,才能从根本上防范这类结构化错误。GPT‑5 通过有限域上的二次方程重构问题,并援引“Chevalley–Warning 定理”这一经典结论,直接指向正确的下界,证明所需约束条件仅为原先设想的一半。
随后出现了一个意想不到的转折:完全相同的界值及本质一致的证明,其实在多年前的研究论文中已有相关论述。GPT‑5 在未注明出处的情况下复现了该论证,直到研究人员通过新会话再次追问时,才指出已存在既有研究。这为 AI 辅助数学研究提供了重要启示:模型能生成正确且优雅的推理,但可能无法有效追溯其概念来源。严谨验证与注重溯源仍然至关重要。
GPT‑5 的贡献:GPT‑5 提供了关键的重构思路与经典定理,从而推导出最优下界。然而,该模型在研究人员明确追问前并未指出已存在相关研究,这凸显了人工核查引证来源的必要性。
Working in tandem with AI
作为菲尔兹奖 (Fields Medal) 得主,组合数学家 Tim Gowers 开展了一系列实验,将 GPT‑5 视为“研究伙伴”,而非用于解决作业类问题的工具。他向该模型提出了自己正在积极思考的部分组合数学难题,并要求模型生成构造建议、搜索反例或批判部分论证。
在多个案例中,GPT‑5 能迅速识别候选构造中的缺陷或疏漏,并提出更简单的替代方案或反例;在其他案例中,它却停滞不前或未能取得进展。Gowers 的总体结论是:尽管目前尚未达到合作作者的标准,但该模型已显现其实用价值,能以极快的速度提供专业批评、对构想进行压力测试并节省时间。
GPT‑5 的贡献:在探索性组合数学工作中,GPT‑5 可作为快速批判工具,帮助 Tim Gowers 确定缺陷、疏漏和更简单的替代方案。
宇宙学利用简化模型来描述宇宙的大规模行为,包括暗能量和膨胀历史。这些模型通常涉及多种数学等价形式,微小的代数错误就可能导致计算失误。Robert Scherrer 使用 GPT‑5 来检验推导的合理性,探索宇宙学模型的简化版本,并在暗能量的不同参数之间进行转换。
GPT‑5 在纠正代数错误、提出同一物理概念的等效公式,并指引 Scherrer 检索文献中与其独立推导的模型相匹配的现有结果方面尤为实用。这减少了将书面构想转为可比对数据形式的阻力。
GPT‑5 的贡献:GPT‑5 通过检查推导过程、提出等效公式以及指出文献中匹配的结果来帮助 Robert Scherrer。
聚变和等离子体物理学涉及对高温、致密等离子体的建模,其中初始条件的细微变化可能导致截然不同的行为。这些模拟的运行与解析成本高昂且耗时费力。这项工作采用 GPT‑5 来辅助构建和分析特定的简化反应(即研究热核燃烧传播的扩散模型),以解读复杂的输出结果,并探索不同密度分布如何影响燃烧性能。该模型有助于运行参数扫描,并确定燃烧波前传播速度最快的优化参数区间。
GPT‑5 还协助提出了对这些数值模式的理论说明,利用功率平衡论证来解释为何部分参数表现更好,并生成简易工程规则建议以指导未来的设计工作。虽然模型偶尔会产生不稳定的模拟结果或过度自信的结论,但在专家的监督下,这一问题能够得到迅速纠正,进而加速实现从“该区域出现异常现象”到“提出合理解释并设计具体测试方案”的跨越。
GPT‑5 的贡献:GPT‑5 协助构建简化物理学模型,探索参数空间,并提出物理解释。
New scientific results obtained with AI
Paul Erdős 提出了一个关于正整数集的难题:寻找满足特殊规则的最大集合 — 该集合中任意两个数的乘积加一,必定能被某个完全平方素因子整除。Erdős 推测了这类最大集合应具备的特征,但该问题数十年来始终悬而未决。
Sawhney 与 Sellke 先探索问题结构,随后借助 GPT‑5 分析单个“异常”数值如何影响整个集合。GPT‑5 提出了一种更清晰的论证方法:只要存在一个不符合特定模式的数字,就会导致几乎所有其他数字出现矛盾。这一思路最终成为破解难题的关键环节。研究人员借此完成完整证明,证实 Erdős 的原始猜想成立。
GPT‑5 的贡献:GPT‑5 揭示了单个数字如何约束所有数字的关键洞察,助力研究人员完成 Erdős 问题 848 的证明。
在线算法需在未获知未来信息的情况下逐步做出决策 — 例如,当系统约束随时间逐步显现时,确定如何移动系统。在凸体追踪问题中,算法必须始终保持在移动的凸区域内,同时保持较小的累积移动量。其中一个核心问题在于最优竞争比:即最坏情况下,在线算法与可预知完整序列的理想离线算法间的其性能差距。
Christian Coester 运用 GPT‑5 进行头脑风暴,探讨可能导致在线算法表现不佳的高难度实例与构造方案。该模型指出的特定几何构造经 Coester 完善和验证后,催生了比既往认知更为简洁、有力的竞争比下界。
GPT‑5 的贡献:GPT‑5 提出了一种几何构造,Christian Coester 将其完善为在线算法问题的更强下界。
该研究团队研究了一个图论问题:计算树(无环图)结构内部的小型模式(路径、星形和“Y”形结构)的数量。先前研究已证明其中一项与计算相关的不等式,并对第二项提出猜想,但该猜想始终未得到证明。研究人员使用围绕 GPT‑5 的自定义数学框架,首先要求模型重新证明已知的不等式,然后攻克猜想命题。
GPT‑5 为两项不等式提供了简洁完备的证明,其论证方法与原始人工证明不同,且更为优雅;Bubeck、Sellke 与 Yin 随后在其论文中验证并采纳了模型的论证思路。
GPT‑5 的贡献:GPT‑5 生成了树中两项不等式的简洁证明,包括一个猜想命题,研究人员已独立检查并采纳该论证思路。
研究人员研究了某个持续增长网络中的简易模型,其中每个新节点会根据隐藏参数 www 的影响概率连接到早期节点。其难点在于,一旦网络规模增长,您就只能观测到未标记的最终树,而无法获知生成该结构的隐藏标签或连接规则。一个悬而未决的问题是:仅凭这一最终结构能否恢复 www。
该研究团队要求 GPT‑5 推理最终树中哪些全局模式能够有效反映 www 的价值。该模型提出了一个出人意料的可观测统计量:最终成为叶节点的长期比例。GPT‑5 概述了这一叶节点比例如何收敛为 www 的简易、严格递增函数,这意味着通过树形结构可直接读取 www 数值。基于这一指导建议,研究人员提出了一个完整的证明,证实该参数确实可识别。
GPT‑5 的贡献:GPT‑5 指出了关键的可观测量 — 叶节点比例,这有助于确定清晰且可证明的方法,用于从最终网络的单个快照中恢复隐藏参数 www。
局限性
这些案例研究是 GPT‑5 有用之处的精选说明;它们并非系统性样本,也未能涵盖所有失败模式。专家监督仍然至关重要。GPT‑5 有时会虚构看似合理的引文、机制或证明;它可能对脚手架和预热问题敏感;有时会忽略特定领域的细微差别;如果未被纠正,它可能会遵循徒劳的推理路线。这些都是正在积极研究的领域,我们正与合作者一起努力,随着未来系统的完善,来衡量和减轻这些失败。
下一步是什么
总而言之,这些早期研究表明,GPT‑5 已经开始帮助完成新型的科学工作。该模型并非自主的,但在专家手中,它可以帮助证明定理、重新发现和扩展结构、浮现跨领域的联系,并为科学家提供用于验证的机制和实验。
我们还看到了这些系统随着更多时间和计算资源的投入而改进的轨迹。如果 GPT‑5 可以在 20 分钟内有意义地协助解决一些研究问题,我们预计当模型可以花费数小时或数天时间来推理一个问题时,将会有更深入的结果。结合世界一流的科学家,这指向了科学生产力在一段时间内实现量变的可能性。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区