目 录CONTENT

文章目录

OpenAI正全力以赴构建全自动研究员

Administrator
2026-03-20 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/

原文作者:Will Douglas Heaven


OpenAI正在重新调整其研究方向,并将资源投入到一个新的宏大挑战中。这家位于旧金山的公司已将目标锁定在构建所谓的“AI研究员”,一个完全自动化的、基于智能体的系统,该系统将能够独立解决大型、复杂的问题。OpenAI表示,这一新目标将是未来几年的“北极星”,整合包括推理模型、智能体和可解释性在内的多项研究工作。

甚至有具体的时间表。OpenAI计划在9月前构建一个“自主AI研究实习生”——一个能够独立处理少量特定研究问题的系统。这个AI实习生将是该公司计划于2028年推出的全自动多智能体研究系统的先驱。OpenAI表示,这个AI研究员将能够解决对人类来说过于庞大或复杂的问题。

这些任务可能涉及数学和物理学——例如提出新的证明或猜想——或者生命科学,如生物学和化学,甚至商业和政策困境。理论上,你可以将任何可以用文本、代码或白板涂鸦形式表述的问题交给这样的工具——这几乎涵盖了一切。

多年来,OpenAI一直引领着AI行业的发展。其早期在大型语言模型方面的统治地位塑造了数亿人日常使用的技术。但现在,它面临着来自Anthropic和Google DeepMind等竞争对手的激烈竞争。OpenAI接下来的决定——对它自身以及对AI的未来——都至关重要。

OpenAI的首席科学家Jakub Pachocki在很大程度上负责这一决策。与首席研究官Mark Chen一起,Pachocki是决定公司长期研究目标的两位关键人物之一。Pachocki在2023年发布的具有划时代意义的大型语言模型GPT-4以及2024年首次出现的、现已支撑所有主要聊天机器人和智能体系统的所谓推理模型的技术开发中发挥了关键作用。

在本周的一次独家采访中,Pachocki向我阐述了OpenAI的新宏大挑战。“我认为我们正接近一个我们拥有能够像人类一样无限期、连贯地工作的模型,”他说。“当然,你仍然希望由人来负责和设定目标。但我认为我们将达到这样一个阶段,即你可以在数据中心里拥有一个完整的实验室。”

如此宏大的声明并非新鲜事。通过解决世界上最棘手的问题来拯救世界,是所有顶级AI公司的既定使命。Demis Hassabis在2022年告诉我,这正是他创办DeepMind的原因。Anthropic的CEO Dario Amodei表示,他正在构建一个数据中心里的天才国家。Pachocki的老板Sam Altman希望治愈癌症。但Pachocki认为OpenAI现在已经拥有了实现这一目标所需的大部分条件。

今年1月,OpenAI发布了Codex,这是一个智能体应用程序,可以实时生成代码来执行计算机上的任务。它可以分析文档、生成图表、为你制作每日收件箱和社交媒体摘要,等等。OpenAI声称,其大多数技术人员现在都在工作中使用了Codex。Pachocki说,你可以将Codex视为AI研究员的一个非常早期的版本:“我预计Codex会变得根本上更好。”

关键在于创建一个能够以更少的人类指导运行更长时间的系统。“我们真正关注的自动化研究实习生是一个你可以委托任务的系统,这些任务可能需要一个人花费几天时间才能完成,”Pachocki说。

“有很多人热衷于构建能够进行更长期科学研究的系统,”Allen Institute for AI的研究科学家Doug Downey(与OpenAI无关)说。“我认为这在很大程度上是由这些编码智能体的成功驱动的。你可以将相当重要的编码任务委托给Codex之类的工具,这一点非常有用且令人印象深刻。这引出了一个问题:我们能否在科学的更广泛领域,在编码之外,做类似的事情?”

对Pachocki来说,答案是明确的“是”。事实上,他认为这只是沿着我们已经走过的道路前进的问题。全面的能力提升也能使模型在没有帮助的情况下工作更长时间。他以OpenAI之前的两个模型——2020年的GPT-32023年的GPT-4——的飞跃为例。他说,GPT-4能够比其前身更长时间地处理一个问题,即使没有专门的训练。

所谓的推理模型带来了又一次的提升。通过训练大型语言模型逐步解决问题,在犯错或遇到死胡同时进行回溯,也提高了模型长时间工作的能力。Pachocki相信OpenAI的推理模型将继续改进。

但OpenAI也在通过提供特定的复杂任务样本来训练其系统,让它们能够更长时间地自主工作。这些样本包括来自数学和编码竞赛的难题,这迫使模型学会如何跟踪非常大的文本块,并将问题分解成(然后管理)多个子任务。

目标不是构建仅仅赢得数学竞赛的模型。“这可以让你在技术连接到现实世界之前就证明技术是有效的,”Pachocki说。“如果我们真的想,我们可以构建一个出色的自动化数学家,我们拥有所有工具,而且我认为这相对容易。但现在我们不会优先考虑它,因为你知道,当你认为自己能够做到时,还有更紧迫的事情要做。”

“我们现在更专注于与现实世界相关的研究,”他补充道。

现在,这意味着将Codex(及其类似工具)在编码方面的能力应用于更广泛的问题解决领域。“发生了一场巨大的变革,尤其是在编程领域,”他说。“我们的工作现在与一年前完全不同了。没有人会一直编辑代码了。取而代之的是,你管理一组Codex智能体。”(其逻辑是)如果Codex能解决编码问题,它就能解决任何问题。

曲线始终向上

确实,OpenAI在过去几个月里取得了一些显著的成功。研究人员已经使用GPT-5(驱动Codex的大型语言模型)发现了许多未解决数学问题的解决方案,并在一系列生物学、化学和物理学难题中突破了看似僵局。

“仅仅看到这些模型提出需要大多数博士生至少几周才能想出的想法,就让我预见到在不久的将来,这项技术将带来更大的加速,”Pachocki说。

但Pachocki承认,这并非板上钉钉。他也理解为什么有些人仍然对这项技术的变革性有多大存疑。“我认为这取决于人们喜欢如何工作以及他们需要做什么。我能理解有些人现在觉得它不是很有用,”他说。

他告诉我,一年前他自己甚至不使用自动完成功能——这是生成式编码技术最基本的形式。“我对我的代码非常讲究,”他说。“如果可以的话,我喜欢在vim里手动输入所有代码。”(Vim是一款文本编辑器,许多硬核程序员都喜欢使用它,通过大量的键盘快捷键而非鼠标进行交互。)

但当他看到最新模型的能力后,情况发生了变化。他仍然不会将复杂的设计任务完全交给AI,但这在他只想尝试一些想法时能节省时间。“我可以让它在周末运行一些实验,而这些实验以前可能需要我花一周时间来编码,”他说。

“我认为它还没有达到我可以完全放手让它来设计整个东西的水平,”他补充道。“但一旦你看到它完成了需要一周时间才能完成的工作,我认为这很难反驳。”

Pachocki的计划是利用Codex等工具现有的问题解决能力,并将其应用于整个科学领域。

Downey也认为自动化研究员的想法非常酷:“如果我们明天早上醒来,发现智能体已经完成了大量工作,并且有新的结果可以审视,那将是令人兴奋的,”他说。

但他警告说,构建这样的系统可能比Pachocki所说的要困难。去年夏天,Downey和他的同事在一系列科学任务上测试了几种顶级大型语言模型。OpenAI的最新模型GPT-5表现最好,但仍然犯了很多错误。

“如果你必须将任务链接在一起,那么连续完成多个任务的成功率就会下降,”他说。Downey承认,技术发展迅速,他还没有测试过最新版本的GPT-5(OpenAI两周前发布了GPT-5.4)。“所以那些结果可能已经过时了,”他说。

严峻的未决问题

我问Pachocki,一个能够几乎不经人工监督就独自解决大型复杂问题的系统可能带来的风险。Pachocki说,OpenAI的人们一直在谈论这些风险。

“如果你相信AI将显著加速研究,包括AI研究,那就是一个巨大的世界性变化,是一件大事,”他说。“这带来了一些严峻的未决问题。如果它如此聪明和能干,如果它能运行整个研究项目,万一它做了什么坏事呢?”

Pachocki认为,这可能通过多种方式发生。系统可能失控。它可能被黑客攻击。或者它可能仅仅是误解了指令。

OpenAI目前解决这些担忧的最佳技术是训练其推理模型在工作时共享它们正在做什么的细节。这种监控大型语言模型的方法被称为链式思维监控

简而言之,大型语言模型被训练成在执行任务时,在一种“便签纸”上记录它们正在做什么。研究人员随后可以使用这些记录来确保模型按照预期行事。昨天,OpenAI发布了关于它如何利用链式思维监控在内部研究Codex的新细节。

“一旦我们拥有能在大型数据中心里大部分时间自主工作的系统,我认为这将是我们真正依赖的东西,”Pachocki说。

其想法是使用其他大型语言模型监控AI研究员的便签纸,并在问题出现之前捕获不当行为,而不是阻止该不当行为的发生。我们对大型语言模型的理解还不足以完全控制它们。

“我认为要说‘好吧,这个问题解决了’,还有很长的路要走,”他说。“在你真正能够信任这些系统之前,你肯定需要有约束措施。”Pachocki认为,非常强大的模型应该部署在沙箱中,与任何它们可能破坏或利用来造成伤害的东西隔离开来。

AI工具已经被用来发动新型网络攻击。一些人担心它们将被用来设计可能用作生物武器的合成病原体。你可以在这里插入任何数量的邪恶科学家吓人故事。“我确实认为存在一些我们可以想象到的令人担忧的场景,”Pachocki说。

“这将是一件非常奇怪的事情,它是一种极其集中的力量,在某种程度上是前所未有的,”Pachocki说。“想象一下,你进入了一个数据中心可以完成OpenAI或Google所有工作的世界。过去需要大型人类组织才能完成的事情,现在将由几个人来完成。”

“我认为这对各国政府来说是一个巨大的挑战,”他补充道。

然而,有些人会说政府是问题的一部分。例如,美国政府希望在战场上使用AI。最近Anthropic和五角大楼的对峙暴露了社会各界在如何以及不应该如何使用这项技术的问题上,并没有达成多少共识——更不用说谁应该来制定这些界限了。在那场争执的直接后果中,OpenAI反而与五角大楼达成了一项协议,而不是它的竞争对手。情况仍然不明朗。

我追问Pachocki。他是否真的信任其他人来解决这些问题,还是作为未来的关键设计者,他觉得自己有个人责任?“我确实有个人责任,”他说。“但我认为这不能仅靠OpenAI来解决,通过以某种特定方式推送其技术或以某种特定方式设计其产品。我们肯定需要政策制定者的大量参与。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区