📢 转载信息
原文链接:https://www.technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/
原文作者:Will Douglas Heaven
在 ChatGPT 爆炸性首次亮相以来的三年里,OpenAI的技术颠覆了家庭、工作场所和学校中各种日常活动——任何人们打开浏览器或拿出手机的地方,也就是无处不在。
现在,OpenAI正在明确地进军科学界。去年10月,该公司宣布成立了一个全新的团队,名为“OpenAI for Science”(为科学而生的OpenAI),致力于探索其大型语言模型(LLM)如何帮助科学家,并调整其工具以支持他们。
在过去的两个月里,数学家、物理学家、生物学家等在社交媒体帖子和学术出版物中纷纷描述了LLM(特别是OpenAI的GPT-5)如何帮助他们取得发现或引导他们找到了原本可能会错过的解决方案。在一定程度上,OpenAI for Science的成立就是为了与这个社区互动。
然而,OpenAI也算是后来者了。谷歌 DeepMind 是“AlphaFold”和“AlphaEvolve”等开创性科学模型的竞争对手,他们拥有一个AI for Science团队已经好几年了。(2023年,当我与谷歌 DeepMind 的首席执行官兼联合创始人Demis Hassabis谈论该团队时,他告诉我:“这就是我创办 DeepMind 的原因……事实上,这也是我整个AI职业生涯都在努力的原因。”)
那么,为什么是现在?进军科学如何与OpenAI更广泛的使命相契合?该公司到底希望实现什么目标?
上周,我在一次独家采访中向领导新“OpenAI for Science”团队的OpenAI副总裁Kevin Weil提出了这些问题。
关于使命
Weil是一位产品专家。几年前,他作为产品总监加入OpenAI,此前他曾是Twitter和Instagram的产品负责人。但他最初的身份是科学家。他在斯坦福大学攻读粒子物理学博士学位时读完了三分之二,然后为了硅谷的梦想放弃了学术界。Weil热衷于强调他的背景:“我曾以为我会余生都做物理学教授,”他说,“我度假时仍在阅读数学书籍。”
当被问及OpenAI for Science如何与公司现有的白领生产力工具或病毒式视频应用Sora相协调时,Weil背诵了公司的口号:“OpenAI的使命是努力构建通用人工智能,并使其造福全人类。”
他说,想象一下这项技术未来对科学可能产生的巨大影响:新药物、新材料、新设备。“想想它如何帮助我们理解现实的本质,帮助我们思考悬而未决的问题。也许AGI(通用人工智能)带来的最大、最积极的影响将实际上来自于它加速科学的能力。”
他补充道:“有了GPT-5,我们看到了成为可能。”
正如Weil所说,LLM现在已经足够强大,可以成为有用的科学协作者。它们可以提供初步想法、建议新探索方向,并在几十年前发表在晦涩期刊或外语文献中的新问题与旧解决方案之间找到富有成效的类比。
Ask AI
Why it matters to you?BETA
Here’s why this story might matter to you, according to AI. This is a beta feature and AI hallucinates—it might get weird
一年前情况并非如此。自OpenAI在2024年12月发布其第一个所谓的“推理模型”(一种可以将问题分解为多个步骤并逐一解决的LLM)以来,该公司一直在推动技术的极限。推理模型使LLM在解决数学和逻辑问题方面远超以往。“回想几年前,我们都对这些模型能达到SAT满分感到集体震惊,”Weil说。
但很快,LLM就在数学竞赛中表现出色,并解决了研究生级别的物理学问题。去年,OpenAI和谷歌 DeepMind 都宣布,他们的LLM在国际数学奥林匹克竞赛(世界上最艰苦的数学竞赛之一)中达到了金牌水平的表现。“这些模型不再仅仅是比90%的研究生还好,”Weil说。“它们确实处于人类能力的尖端。”
这是一个巨大的说法,但这带有保留意见的。尽管如此,毫无疑问,包含推理模型的GPT-5在复杂问题解决方面比GPT-4有了巨大进步。根据OpenAI的数据,以GPQA这一行业基准(包含400多个测试生物学、物理学和化学的博士水平知识的多项选择题)来衡量,GPT-4得分39%,远低于人类专家的基线(约70%)。而GPT-5.2(该模型的最新更新,于12月发布)得分为92%。
被过度炒作
兴奋之情显而易见——而且可能有些过头了。去年10月,包括Weil在内的OpenAI高层在X上夸口称,GPT-5已经找到了一些未解数学问题的解决方案。数学家们很快指出,实际上GPT-5似乎只是从旧的研究论文中挖掘出了现有的解决方案,其中至少有一篇是用德语写的。这仍然有用,但这并非OpenAI似乎声称的成就。Weil和他的同事删除了那些帖子。
现在Weil更加谨慎了。他说,找到那些已经存在但被遗忘的答案通常就足够了:“我们集体站在巨人的肩膀上,如果LLM能够积累这些知识,这样我们就不用在已经解决的问题上浪费时间了,这本身就是一种加速。”
他淡化了LLM即将带来颠覆性新发现的说法。“我不认为模型已经达到了那个水平,”他说。“也许它们会达到。我乐观地认为它们会的。”
但他坚持认为,那不是使命:“我们的使命是加速科学。我不认为加速科学的门槛是,比如,爱因斯坦级别地重新构想整个领域。”
对于Weil来说,问题在于:“因为科学家加上模型可以比单独的科学家做更多、更快的事情,科学的发生速度真的加快了吗?我认为我们已经看到了这一点。”
去年11月,OpenAI发布了一系列由公司内外部科学家提供的轶事案例研究,说明他们如何使用GPT-5以及它如何提供帮助。“大多数案例都是科学家已经在他们的研究中直接使用GPT-5,并通过某种方式找到了我们,说‘看看我能用这些工具做到什么,’”Weil说。
GPT-5似乎擅长的一些关键方面是找到科学家尚未意识到的现有工作的参考文献和联系(有时会激发新想法);帮助科学家勾勒出数学证明;以及建议科学家如何在实验室中测试假设。
“GPT 5.2 已经阅读了过去30年里写的几乎所有论文,”Weil说。“它不仅理解特定科学家所工作的领域;它还能从其他不相关的领域中整合类比。”
“这非常强大,”他继续说道。“你总能在相邻领域找到人类合作者,但很难找到,你知道的,所有可能相关的上千个相邻领域的上千个合作者。除此之外,我可以在深夜与模型合作——它不需要睡觉——我可以同时向它提出10个问题,这对人类来说有点尴尬。”
解决问题
大多数OpenAI联系的科学家都支持Weil的观点。
范德堡大学物理学和天文学教授Robert Scherrer只是把玩过ChatGPT作为消遣(“我曾让它以《贝奥武夫》的风格重写《吉利根岛》的主题曲,它做得非常好,”他告诉我),直到他的范德堡同事、现任OpenAI物理学家Alex Lupsasca告诉他,GPT-5帮助解决了他一直在研究的一个问题。
Lupsasca让Scherrer获得了OpenAI每月200美元的高级订阅服务GPT-5 Pro。“它成功解决了我和我的研究生几个月都未能解决的一个问题,”Scherrer说。
他说它并不完美:“GPT-5仍然会犯愚蠢的错误。当然,我也会犯错,但GPT-5犯的错误更愚蠢。”但他表示它一直在进步:“如果目前的趋势继续下去——这是一个很大的‘如果’——我怀疑所有科学家很快都会使用LLM。”
杰克逊实验室(一家非营利性研究机构)生物学教授Derya Unutmaz在研究免疫系统时,使用GPT-5进行头脑风暴、总结论文和规划实验。在他与OpenAI分享的案例研究中,Unutmaz使用GPT-5分析了他团队以前研究过的一个旧数据集。该模型提出了新的见解和解释。
“LLM对科学家来说已经至关重要了,”他说。“当你可以在几个月内完成以前需要数月的数据集分析时,不使用它们就不是一个选项了。”
加州大学伯克利分校的统计学家Nikita Zhivotovskiy表示,自第一个版本的ChatGPT发布以来,他一直在研究中使用LLM。
和Scherrer一样,他发现LLM在突出他自己工作与他不知道的现有结果之间意想不到的联系时最有用。“我相信LLM正在成为科学家必不可少的技术工具,就像计算机和互联网以前一样。我预计那些不使用它们的人将长期处于劣势。”
但他不指望LLM很快就能做出新的发现。“我很少看到真正新鲜的想法或论点可以单独发表,”他说。“到目前为止,它们似乎主要是在组合现有结果,有时还出错,而不是产生真正的新方法。”
我还联系了几位与OpenAI没有关系的科学家。
利物浦大学化学教授、Leverhulme功能材料设计研究中心主任Andy Cooper的看法不太乐观。“我们还没有发现,LLM正在从根本上改变科学运作的方式,”他说。“但我们的最新结果表明它们确实有一席之地。”
Cooper正在领导一个开发“AI科学家”的项目,该项目可以完全自动化科学工作流程的部分。他说他的团队不使用LLM来产生想法。但作为更广泛的自动化系统的一部分,这项技术正开始证明其价值,例如LLM可以帮助指导机器人。
“我的猜测是,LLM可能至少在初期更多地用于机器人工作流程,因为我不确定人们是否准备好听从LLM的指示,”Cooper说。“我当然不准备好。”
犯错
LLM可能变得越来越有用,但谨慎仍然是关键。去年12月,从事量子力学研究的科学家Jonathan Oppenheim指出了一个已进入科学期刊的错误。“OpenAI的领导层正在推广一篇发表在《Physics Letters B》上的论文,其中GPT-5提出了主要思想——可能是第一篇由LLM生成核心贡献的同行评审论文,”Oppenheim在X上发帖说。“一个小问题:GPT-5提出的检验方法检验的是错误的东西。”
他接着说:“GPT-5被要求提供一个检测非线性理论的方法。它提供了一个检测非定域性的方法。听起来相关,但不同。这就像要求进行COVID检测,而LLM愉快地递给你一个水痘检测一样。”
很明显,许多科学家正在以创新和直观的方式与LLM互动。也很明显,这项技术会犯下连专家都可能忽略的微妙错误。
问题的一部分在于ChatGPT如何通过奉承让你放松警惕。正如Oppenheim所说:“一个核心问题是,LLM的训练目标是验证用户,而科学需要挑战我们的工具。”在一个极端案例中,一个人(不是科学家)被ChatGPT说服,让他几个月来都相信自己发明了一个新的数学分支。
当然,Weil非常清楚“幻觉”的问题。但他坚持认为,较新的模型幻觉越来越少。即便如此,他认为关注幻觉可能偏离了重点。
“我的一位队友,一位前数学教授,说了一句让我印象深刻的话,”Weil说。“他说:‘当我做研究时,如果我与同事交流想法,我90%的时间都是错的,这才是重点所在。我们都在互相抛出想法,试图找到有效的东西。’”
“这实际上是一个理想的状态,”Weil说。“如果你说了很多错误的话,然后有人偶然发现了一粒真理的种子,然后另一个人抓住它说:‘哦,是的,那不太对,但如果我们——’你就会逐渐找到穿过树林的路径。”
这是Weil对OpenAI for Science的核心愿景。他说,GPT-5很棒,但它不是一个先知。这项技术的价值在于为人们指明新方向,而不是提供确切的答案。
事实上,OpenAI目前正在研究的一件事是让GPT-5在提供回应时降低其置信度。它可能不会说这是答案,而是告诉科学家:这是需要考虑的事情。
“这实际上是我们花费大量时间研究的事情,”Weil说。“努力确保模型具有某种认识论上的谦逊。”
观察观察者
OpenAI也在研究如何使用GPT-5来事实核查GPT-5。通常情况下,如果你将GPT-5的答案之一重新输入模型中,它会对其进行分析并指出错误。
“你可以将模型自身作为它的评论家,”Weil说。“然后你可以得到一个工作流程,其中模型在思考,然后它会转到另一个模型,如果那个模型发现它可以改进的地方,它就会传回给原始模型说:‘嘿,等等——这部分不对,但那部分很有趣。保留它。’这几乎就像两个代理一起工作,只有当输出通过了评论家的审查后,你才能看到结果。”
Weil描述的也听起来很像谷歌 DeepMind 使用 AlphaEvolve 所做的事情,AlphaEvolve 是一个工具,它将该公司的LLM Gemini封装在一个更广泛的系统中,该系统会过滤掉好的回应并剔除坏的回应,然后将好的回应重新输入以进行改进。谷歌 DeepMind 已经使用 AlphaEvolve 来解决多个现实世界的问题。
OpenAI面临着来自竞争对手的激烈竞争,他们的LLM可以实现OpenAI声称的其自身模型的绝大部分功能,如果不是全部的话。如果是这样,为什么科学家应该使用GPT-5而不是Gemini或Anthropic的Claude(这些模型家族每年都在改进)?最终,OpenAI for Science可能与在新的领域插旗一样,是一种努力。真正的创新仍在未来。
“我认为2026年对科学来说将是2025年对软件工程来说的意义,”Weil说。“2025年初,如果你使用AI编写大部分代码,你就是一个早期采用者。而12个月后,如果你不使用AI来编写大部分代码,你很可能会落后。我们现在正为科学看到与代码相同的早期闪光。”
他接着说:“我认为一年后,如果你是一名科学家,并且没有大量使用AI,你就会错失增加思维质量和速度的机会。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区