目 录CONTENT

文章目录

衡量 AI 在湿实验室加快生物研究进程的能力

Administrator
2026-01-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/accelerating-biological-research-in-the-wet-lab

原文作者:Nikolai Eroshenko、Miles Wang、Rachel Smith、Liliana Abramson、Tejal Patwardhan、Kemo Jammeh、Chase Olle、Azadeh Samadian、Nitin Mahadeo


2025年12月16日

推动科学进步是人工智能惠及人类的关键途径之一。随着 GPT‑5 的出现,我们已经看到初步迹象:它不仅能帮助研究者更快速地处理科学文献,还能支持新的科学推理形式,包括揭示潜在关联、提出证明策略,或生成可由专家评估与实验验证的机制假设。

到目前为止,最明显的成果集中在数学、理论物理和理论计算机科学等领域,在这些领域中,相关观点可以在没有实际实验的情况下得到严格检验。生物学则有所不同:其大多数突破依赖于实验执行、反复迭代,以及实验室中的经验性验证。

为深入了解前沿模型在相关环境中的行为,我们与生物安全初创企业 Red Queen Bio 合作,建立了一套评估框架,用于检验模型在湿实验室中提出、分析及迭代实验方案的能力。我们设计了一个简单的分子生物学实验体系,并让 GPT‑5 优化分子克隆实验流程的效率。

拼贴风格图像,带有柔和的蓝色和橙色渐变背景,包含 DNA 组装示意图,并配有醒目的文字“生物学研究”,下方标注“OpenAI 科学解决方案”。

经过多轮实验,GPT‑5 引入了一种新机制,使克隆效率提高了 79 倍。克隆是分子生物学的基本工具,其方法效率对于构建大型复杂库至关重要,而这些库在蛋白质工程⁠(在新窗口中打开)、基因筛选⁠(在新窗口中打开)和生物株系工程⁠(在新窗口中打开)中发挥核心作用。本项目为我们提供了一个窗口,展示人工智能如何与生物学家协作以加快研究速度。改进实验方法不仅能帮助研究人员更快推进工作,还能降低成本,并将科学发现转化为实际应用。

由于生物学推理的进展可能带来生物安全方面的影响,我们在严格管控的环境下开展了这项工作:采用无害的实验系统、限定任务范围,并对模型行为进行评估,以便为我们的生物安全风险评估,以及模型和系统层面的安全防护措施提供依据。这些措施已在我们的
准备框架⁠(在新窗口中打开)中有所阐述。

实验结果

在这一实验设置中,GPT‑5 能够自主推理克隆流程,提出改进方案,并结合新实验数据进一步提出优化建议。唯一的人为干预是科学家执行修改后的实验流程并上传实验数据。

在多轮实验过程中,GPT‑5 优化了克隆流程,使效率提升超过 79 倍。也就是说,在相同数量的输入 DNA 下,我们获得的序列验证克隆数量比基线流程多出 79 倍。最值得注意的是,它引入了两种酶,构成了一种新的机制:来自大肠杆菌的重组酶 RecA,以及噬菌体 T4 基因 32 的单链 DNA 结合蛋白 (gp32)。两者协同作用时,gp32 能够抚平并解开松散的 DNA 末端,而 RecA 则引导每条链找到正确的配对。

初步筛选与后续实验确定了 RecA-Assisted Pair-and-Finish HiFi 组装 (RAPF) 和转化流程 7 (T7),分别作为最佳的酶促方案与转化流程。RAPF 组装与 T7 转化均能独立提升克隆效率,相较于基础 HiFi 反应克隆流程,分别提高了 2.6 倍和 36 倍;两者结合则产生了叠加效应,表现提升达 79 倍。所有克隆均通过测序得到确认。(误差线:3 次独立验证实验的标准差)

虽然目前仍处于早期阶段,但已展现出积极的前景。这些改进特定于我们在模型系统中采用的克隆设置,并且仍需由科学家来建立和执行相关实验流程。即便如此,这些实验显示,人工智能系统能够在实际实验室工作中提供有力支持,并有望在未来加快科学家的研究速度。

尤其值得强调的是,AI 实验室循环在固定提示条件下运行,且没有任何人工干预。这一支撑框架揭示出:在缺乏人类指导时,模型具有提出新颖的实验流程改进的能力,但同时也让系统局限于探索,限制了其充分利用新发现的思路。如果能在探索与利用之间实现更好的动态平衡,可能会带来更多效益,因为无论是酶促方案改进还是转化改进,都还有相当大的优化空间。我们预计,随着规划能力和长程任务推理的进步,简单的固定提示将能更好地支持探索工作与后续优化。

用于优化现实实验流程的进化框架

自 2009 年问世以来,Gibson 组装⁠(在新窗口中打开)已成为分子克隆的主要方法,并在分子生物学中得到广泛应用。该方法通过短暂熔解 DNA 末端,使匹配序列能够结合为单一分子,从而实现 DNA 片段的“粘合”。其突出优势在于简便性:所有反应在同一试管、同一温度下完成。然而,这些约束条件也为进一步改进提供了空间。此外,以下特征使其成为评估 AI 模型改进湿实验室技术能力的理想体系:

  • 组件明确且可控,不同于细胞体系
  • 优化目标清晰:由固定量线性 DNA 输入生成可转化的环状 DNA
  • 实验周期较短(1–2 天)
  • 高维设计空间,需要机制性推理来改进:缓冲液、试剂与温度相互依赖

我们采用 HiFi 组装⁠(在新窗口中打开)作为优化起点,该体系由 New England Biolabs 开发,基于 Gibson 组装的专有酶系统。我们探索了在去除单步和等温限制后,人工智能是否能够通过实验反馈进行创新,并识别流程改进。

在具体实验中,我们进行了双片段克隆反应,使用绿色荧光蛋白 (GFP) 基因和常用的 pUC19 质粒 — 一种标准 DNA 载体,用于将基因导入细菌以实现复制。实验目标是提高成功菌落的数量。

我们通过引入一个进化框架来迭代方案,从而优化了克隆反应,使模型能够从其以往实验中进行“在线”学习。在每一轮中,GPT‑5 提出 8–10 种不同反应,若涉及实验室暂时缺乏的定制试剂,则推迟至后续轮次。科学家随后执行这些反应,并在初步筛选中测量了菌落数量,与基线的 HiFi Gibson 组装进行比较。上一轮的最佳数据被输入到下一轮。需要强调的是,提示过程完全标准化,除澄清问题外无人工干预,从而确保新颖的机制性见解可直接归因于 AI,而非人为引导。

我们在更广泛的 DNA 稀释范围内,重新测试了整个优化系列中的前八个反应,发现许多反应的效果较初筛有所减弱;最终,最强的验证候选来自第 5 轮的一个反应,该反应成功重现了原始表现。许多高表现反应属于连接酶修饰家族,该类反应对感受态细胞状态及反应后 DNA 处理的微小差异高度敏感。由于这些反应包含短暂的 HiFi 步骤,我们推测许多产物在进入大肠杆菌时,可能只有一侧连接已封闭,另一侧仅通过退火保持稳定,后续的封闭则依赖细胞的修复途径完成。这会导致结果具有较高的方差,并呈现出“头奖式”效应:即使大多数情况下,这些反应变体表现并不突出,但只要出现一个足够强的离群者,就能将整个家族带入后续的轮次。

由于克隆反应在机制上较为复杂,我们在多轮实验中重点进行了优化;与此同时,我们并行地采用单轮“一次性”(one-shot) 优化来改进转化流程,在该轮中模型提出了多种独立的条件变化,我们最终选取了表现最佳的反应。

两步克隆流程的初始优化筛选:酶促组装与转化。(左)酶促组装的迭代优化,共进行五轮(总计 44 个反应)。以 HiFi 组装基线为起点,GPT‑5 每轮提出 8–10 个组装流程变体;最佳结果的数据被纳入后续提示。针对每一轮,我们绘制迄今为止表现最佳的反应(包括前几轮)。(右)转化条件的“一次性”(one-shot) 优化,测试了 13 种不同流程。对于两类优化筛选,数据均为每个条件的单次测量 (n=1) 所得;最佳候选的重复验证则在独立实验中进行。

在采用标准化提示、完全无人工干预的条件下,GPT‑5 将端到端克隆效率提升了 79 倍,这一结果在多次实验重复中得到验证。

值得注意的是,模型提出了一种新的酶促组装流程,并将其命名为 RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi)。该流程在反应中额外引入两种蛋白质:来自大肠杆菌的重组酶 RecA,以及噬菌体 T4 基因 32 的单链 DNA 结合蛋白 (gp32)。此外,模型还对孵育温度、时间以及酶加入的时序进行了刻意调整:它建议先进行一次 50 °C 的初始 HiFi 反应,随后加入 RecA 与 gp32,并在 37 °C 条件下发挥作用,最后再回到 50 °C 完成组装。上述改动整体上使组装效率进一步提升了 2.5 倍以上。需要指出的是,这些结果仅代表在未对反应条件与时序进行迭代优化前的初始表现。

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

在转化步骤中,最有效的改动出乎意料地简单:将细胞离心沉淀(使其聚集于管底)、移除一半的悬液体积,并在 4 °C 下重悬细胞后再加入 DNA。尽管高效化学感受态细胞通常被认为较脆弱,但这些细胞对浓缩处理表现出良好耐受性,而分子碰撞频率的提升显著增强了转化效率(在最终验证中提升超过 30 倍)。

同源性克隆的新型优化策略

图示,说明了 RecA-assisted pair-and-finish HiFi DNA 组装步骤,其中标注了 T5 外切酶、GP32、RecA、聚合酶和连接酶依次作用于 DNA 链的阶段。

T5 外切酶产生 3′ 悬垂末端,gp32 通过抑制二级结构来稳定这些末端。随后 RecA 从 3′ 端侵入,取代 gp32 并促进同源序列搜索与退火。加热至 50 °C 可去除两种蛋白,从而使聚合酶进行缺口填充并完成连接。

Gibson 组装的原理是通过赋予 DNA 片段互补的“黏性末端”,使它们能够彼此识别并连接。该反应依赖两种不同的酶(聚合酶与连接酶)来封闭已连接的片段。RAPF-HiFi 流程引入了两种额外的蛋白质,以增强匹配步骤的效率。其一是 gp32,作用类似“梳子”,能够抚平并理顺松散的 DNA 末端;其二是 RecA,充当“向导”,为每条链寻找正确的配对伙伴,并将匹配片段拉拢在一起。升高温度会使这两种辅助蛋白从 DNA 上解离,从而让常规的 Gibson 酶完成反应。

综上,我们推测表现提升的机制如下:

为验证新型酶的功能,并排除性能提升仅由温度步骤或缓冲液变化导致的可能性,我们测试了缺失 RecA,以及同时缺失 RecA 与 gp32 的 RAPF-HiFi 表现。结果显示,两者的表现均低于完整的 RAPF-HiFi,说明这两种蛋白均为 RAPF-HiFi 作用机制的必要元素。

为验证其底层机制,我们将反应中新引入的两种酶 RecA 与 gp32 分别进行测试。结果显示,单独使用其中任意一种酶时,效率均低于 HiFi 基线;而两者联合使用则显著优于基线,效率提升约 2.6 倍。(误差线:3 次独立实验的标准差)

RAPF-HiFi 的开发表明,GPT‑5 具备复杂的多维度推理能力:

  • RecA 受 DNA 结构抑制⁠(在新窗口中打开),而值得注意的是,模型同时提出了两项协同改进:一方面引入 RecA,另一方面辅以 gp32 去除 DNA 的二级结构。
  • 大肠杆菌 RecA 的天然伙伴是大肠杆菌单链结合蛋白 (SSB)。SSB 在基因组复制、重组和修复过程中发挥与 gp32 类似的角色。然而,大肠杆菌 SSB 并不能以足够快的速率从 DNA 上自发解离,从而限制 RecA 丝状体的生长;而 RecFOR 复合物促进 RecA 在 SSB 丝状体上的成核⁠(在新窗口中打开)。SSB 以稳定的四聚体形式结合 DNA,解离速率极慢⁠(在新窗口中打开)。相比之下,gp32 丝状体更具动态性⁠(在新窗口中打开),从而使 RecA 能够将其取代。

据我们所知,RecA 与 gp32 尚未在分子生物学方法中联合使用。与许多新型分子生物学技术类似,其底层的生化活性早已被研究,但将其作为一种实用且可推广的方法才构成真正的进展。

例如,RecA 与 gp32 的相互作用已在体外机制性重构实验中得到研究:在 D 环形成实验中,gp32 被证明⁠(在新窗口中打开)能够增强 RecA 活性。gp32 曾与其天然的 T4 重组酶伙伴 UvsX 及重组酶装载因子 uvsY 一同用于重组酶聚合酶扩增 (RPA)⁠(在新窗口中打开)。尽管 RPA 专利说明书指出⁠(在新窗口中打开),在异源系统中使用大肠杆菌 RecA 与改造的(非野生型)gp32 蛋白可实现有效的 RPA 反应,但这一说法仅在部分专利披露中作为旁注出现,迄今未见公开数据支持,也未被采纳为稳健的 RecA-RPA 体系。另一种称为 SLiCE⁠(在新窗口中打开) 的克隆方法使用含 λ Red 重组系统的大肠杆菌全细胞提取物,其中 Red beta 可能同时充当 DNA 结合蛋白与重组酶(而我们在提示中明确禁止使用细胞提取物)。在另一应用中,Ferrin 与 Camerini-Otero⁠(在新窗口中打开) 曾单独使用 RecA,来选择性捕获具有匹配序列的 DNA 分子。另外,gp32 已被用作 PCR DNA 扩增过程中的添加剂,⁠(在新窗口中打开)以减少二级结构。NABSA 扩增被证明⁠(在新窗口中打开)可分别由 RecA 与 gp32 增强,但未发现二者的协同效应。广泛而言,对 Gibson 类 DNA 组装反应的改进讨论十分稀少,其中较为显著的例子是耐热 DNA 结合蛋白 (ET SSB),其可使组装效率提高约 2.5 倍⁠(在新窗口中打开)。

在多数应用中,我们并不认为 RAPF-HiFi 会取代 HiFi/Gibson 克隆的简便与稳健。然而,机制上完全不同的组装方式的出现,本身就颇具意义:GPT‑5 提出了一个解决方案,以不常见的方式结合了重组蛋白与反应动态系统。其底层机制可能具有模块化潜力,为其他分子流程提供可重用或可重组的组分。我们也在持续探索 RAPF-HiFi 的改进方向。反应温度与步骤时长可加以调节,以平衡 RecA 与 gp32 的活性与外切酶过度消化之间的关系;两种蛋白的用量亦有待优化。GPT‑5 还提出了一种高活性 RecA 变体,我们正在进行纯化。

关于转化流程,成功的优化条件涵盖了一系列旨在增强商业 10-beta 感受态细胞⁠(在新窗口中打开)热激效率的添加剂与热扰动。在所测试的 13 种 AI 生成的“一次性”(one-shot) 转化流程中,最有效的改动是转化流程 7 (T7):将细胞沉淀、移除一半悬液体积,并在 4 °C 条件下重悬后再加入 DNA。高效化学感受态细胞通常被认为较脆弱,因此这类操作往往被避免。然而,细胞对浓缩处理表现出良好耐受性。每个细胞 DNA 暴露量增加与缓冲液抑制作用减少,共同导致更为锐利的热激,从而显著提升转化效率(超过 30 倍)。

这一转化流程颇为新颖,尽管已有论文提出在早期步骤对细胞进行浓缩的类似方法⁠(在新窗口中打开)。值得注意的是,GPT‑5 开发的方法可直接兼容市售的化学感受态细胞,无需实验室自行制备,同时在相似的细胞株上,其效率提升超过了已有方法的所知水平。

机器人系统

为提高模型实验体系的处理效率,Robot on Rails 与 Red Queen Bio 联合打造了一套机器人系统,该系统能够接收自然语言形式的克隆流程,并在湿实验室中加以执行。

该系统整合了三大组件:1) 人机接口语言模型,将普通英文指令转化为机器人操作;2) 视觉系统,实时识别与定位实验器材; 3) 机器人路径规划器,确定如何安全、准确地完成各项操作。由此形成了一种灵活且通用的实验室机器人,并进一步针对 Gibson 克隆流程的变体进行了优化。

我们评估了自主机器人是否能够执行完整的克隆实验,具体方法是同时运行两种流程:标准 HiFi 方法与 R8,即首次优化轮次中表现最佳的 AI 改进流程。

在实验各环节中,我们将机器人的操作与人工实验进行逐步对照。机器人成功完成了转化过程,该过程包含多种复杂的物理操作:液体的转移与混合、样品管的移动、对细胞的精确加热,以及将细胞铺展至培养板。与人工转化相比,机器人生成的数据质量相当,并在基线之上取得了等效改进,显示出其在自动化与加快生物实验优化方面的初步潜力。

然而,尽管机器人与人工实验的倍数变化相近,其绝对菌落数量约比人工操作低十倍。这表明仍有改进空间,包括液体处理的精度、温度控制的校准,以及对人工细胞操作细微差异的再现。

标准 HiFi 方法(基线)与改进的 R8 方法均由人类研究人员和自主机器人执行,其转化效率均归一化至各自的 HiFi 基线对照(设定为 1.0)。在人类执行下,R8 方法表现出 2.39 倍的提升;机器人执行的 R8 方法则实现了 2.13 倍的提升(为人类表现的 89%),表明尽管绝对产量较低,但在实验流程排名上具有可比性。

未来展望

我们认为,这些实验展示了人工智能在未来推动科学研究的潜力。在科研场景中,模型能够持续学习并与现实世界交互。本次实验刻意排除了人为干预,以便纯粹评估模型的能力,但我们尤其期待 AI 能够切实帮助科学家⁠ 设计实验,并推动研究进展。

在我们努力以安全、负责任的方式加速科学进展的同时,也致力于评估并降低风险,尤其是与生物安全相关的风险。评估结果表明,模型能够在湿实验室环境中进行推理,以改进实验流程,并可能对生物安全产生影响,这一点已在我们的准备框架⁠(在新窗口中打开)中有所阐述。我们承诺⁠在模型与系统层面,建立必要且细致的防护措施,以降低这些风险,并开发评估方法,以持续监测当前水平。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区