📢 转载信息
原文链接:https://openai.com/index/accelerating-biological-research-in-the-wet-lab
原文作者:Nikolai Eroshenko, Miles Wang, Rachel Smith, Liliana Abramson, Tejal Patwardhan, Kemo Jammeh, Chase Olle, Azadeh Samadian, Nitin Mahadeo
加速科学进步是人工智能(AI)造福人类最有价值的方式之一。借助 GPT‑5,我们开始看到这方面的早期迹象——不仅在于帮助研究人员更快地浏览科学文献,还在于支持新的科学推理形式,例如发现意外的联系、提出可供专家评估和测试的证明策略或合理的机制。
迄今为止,进展在数学、理论物理学和理论计算机科学等领域最为明显,在这些领域,思想无需物理实验即可得到严格检验。生物学有所不同:大多数进展依赖于实验室中的实验执行、迭代和实证验证。
为了帮助理解前沿模型在这些环境中的行为,我们与生物安全初创公司 Red Queen Bio 合作,建立了一个评估框架,用于测试模型在湿实验中提出、分析和迭代想法的能力。我们设置了一个简单的分子生物学实验系统,并让 GPT‑5 优化一个分子克隆协议的效率。
经过多轮实验,GPT‑5 引入了一种新颖的机制,使克隆效率提高了 79 倍。克隆是分子生物学的基本工具。克隆方法的效率对于创建大规模复杂文库至关重要,这对于蛋白质工程、基因筛选和生物体菌株工程是核心。
这项工程瞥见了 AI 如何能与生物学家并肩合作以加速研究。改进实验方法将有助于人类研究人员加快速度、降低成本,并将发现转化为现实世界的影响。
由于生物学推理的进步涉及到生物安全影响,我们在一个严格控制的环境中进行了这项工作——使用了良性的实验系统,限制了任务范围,并评估了模型行为,以告知我们的生物安全风险评估以及模型和系统级安全措施的开发,正如我们在《准备框架》中所概述的那样。
实验结果
在此设置中,GPT‑5 能够自主地对克隆协议进行推理、提出修改,并整合来自新实验的数据以建议进一步的改进。唯一的人工干预是让科学家执行修改后的协议并上传实验数据。
在多轮过程中,GPT‑5 将克隆程序优化到将效率提高了 79 倍以上——这意味着对于固定量的输入 DNA,我们回收的经过序列验证的克隆数量是基线协议的 79 倍。最值得注意的是,它引入了两种构成新颖机制的酶:来自 E. coli 的重组酶 RecA,以及噬菌体 T4 第 32 基因的单链 DNA 结合蛋白 (gp32)。这两种蛋白协同作用,gp32 使松散的 DNA 末端平滑和解缠结,然后 RecA 将每条链引导至其正确的匹配项。
初始筛选和二次实验将 RecA 辅助配对完成高保真组装 (RAPF) 和转化 7 (T7) 分别确定为最佳的酶促和转化方案。RAPF 组装和 T7 转化相对于基础 HiFi 反应克隆方案,分别独立地将克隆效率提高了 2.6 倍和 36 倍;组合起来提供了 79 倍的累加性能提升。所有克隆都经测序确认。(误差线:n=3 次独立验证实验的标准差)。
尽管这些结果尚早,但它们是令人鼓舞的。这些改进对于我们模型系统中使用的特定克隆设置是特异性的,仍然需要人类科学家来设置和运行协议。即便如此,这些实验表明 AI 系统可以有意义地协助实际的实验室工作,并可能在未来加速人类科学家。
值得注意的是,AI-实验室循环是以固定的提示(prompting)和没有人为干预的情况下运行的。这种脚手架(scaffolding)有助于揭示模型提出真正新颖的协议更改的能力,独立于人类指导,但也使系统陷入了探索,限制了其最大化新发现想法性能的能力。探索和利用之间的更好的动态平衡可能会带来更大的收益,因为酶促和转化改进都有大量的完善空间。我们预计规划和任务视野推理的进步将提高简单固定提示支持发现和后续优化的能力。
优化现实世界协议的进化框架
自 2009 年发明以来,Gibson 组装反应一直是主要的克隆方法,在分子生物学中得到了广泛应用。Gibson 组装允许分子生物学家通过短暂熔化 DNA 片段的末端来将它们“粘合”在一起,使匹配的序列可以密封成单个分子。Gibson 组装的一个主要吸引力在于其简单性:所有操作都在一个试管中、在一个温度下进行。这些限制自然留下了改进的空间。此外,以下特性使其非常适合评估 AI 模型改进湿实验室技术的能力:
- 定义明确,组件受控,与基于细胞的系统不同
- 具有明确的优化功能:由固定量线性 DNA 输入制成的可转化环状 DNA
- 相对快速的实验周期(1-2 天)
- 需要机械推理才能改进的高维设计空间:最佳的缓冲液、试剂和温度都是相互依赖的
我们使用 HiFi 组装(New England Biolabs 开发的专有酶系统,基于 Gibson 组装)作为优化的起点。我们探索了 AI 是否可以在移除单步和等温限制后进行创新并从实验反馈中学习,从而在这种情况下识别协议改进。
具体来说,我们使用绿色荧光蛋白 (GFP) 基因和广泛使用的 pUC19 质粒(一种用于将基因导入细菌以进行复制的标准 DNA“载体”)进行了一个两步克隆反应。目标是增加成功菌落的数量。
我们通过引入一个用于迭代建议的进化框架来优化克隆反应,使模型能够从其过去的实验中“在线”学习。在每一轮中,GPT‑5 会提出一个包含 8-10 个不同反应的批次,如果反应需要实验室手头没有的定制试剂,则将其推迟到后续轮次。然后,人类科学家执行反应,并测量相对于初始筛选中基线 HiFi Gibson 组装的菌落计数。上一轮中表现最佳的数据被输入到下一轮中。重要的是,提示是标准化的,除了澄清问题外,没有人工输入,这使我们能够将新颖的机制见解直接归因于 AI,而不是人类指导。
我们使用更广泛的 DNA 稀释度重新测试了完整优化系列中表现最好的八个反应,发现许多反应的效果比初始筛选中小;最终,验证最强的候选反应是第 5 轮中的一个反应,它重现了其原始性能。许多表现优异的反应都属于连接酶-抛光家族,该家族似乎特别容易受到感受态细胞状态和/或反应后 DNA 处理的微小变化的影响。由于这些反应使用了较短的 HiFi 步骤,我们假设许多产物可能以只有一个接头被密封、另一个接头通过退火保持连接的状态进入 E. coli,从而使下游的修复依赖于细胞修复通路。这造成了高方差和“大奖”动态:即使大多数时候该反应的变体不会表现更好,单个强大的异常值也可能使该家族进入后续轮次。
虽然我们专注于在多轮中优化克隆反应,因为它具有机械复杂性,但我们并行地使用单“一炮式”(one-shot)轮次优化了转化过程,在该轮次中,模型提出了许多独立的变化,我们采用了表现最好的反应。
两步克隆工作流程的初始优化筛选:酶促组装和转化。(左)五轮(共 44 个反应)酶促组装的迭代优化。从 HiFi 组装基线开始,GPT‑5 每轮提出 8-10 个组装方案变体;将表现最佳结果的数据纳入后续提示中。在每一轮中,我们绘制迄今为止表现最佳的反应(包括先前轮次)。(右)测试 13 种不同方案的转化条件的一炮式优化。对于两种优化筛选,数据代表每个条件的单次测量 (n=1);对顶级候选物进行了单独的重复验证。
使用没有人工输入的标准化提示,GPT5 将端到端克隆效率提高了 79 倍,并经过实验重复验证。
值得注意的是,该模型提出了一个新的酶促过程,该模型称之为RecA-辅助配对完成 HiFi 组装 (RAPF-HiFi),它向反应中添加了两种新蛋白:来自 E. coli 的重组酶 RecA,以及噬菌体 T4 第 32 基因的单链 DNA 结合蛋白 (gp32)。此外,该模型对孵育温度和时间,以及酶添加的时机进行了深思熟虑的修改:它建议在初始 50°C HiFi 反应后添加 RecA 和 gp32,让这些蛋白在 37°C 下工作,然后再回到 50°C 完成组装。这些新修改共同使效率提高了 2.5 倍以上。应注意的是,这代表了在没有对反应条件和时间进行迭代优化的情况下实现的初始性能。
20 uL 反应体积
100 ng pUC19 载体,经 HindIII/KpnI 消化
64.3 ng Monster GFP 插入片段,经 DpnI 消化 PCR 扩增子
10 μL NEBuilder 2x HiFi DNA 组装母液
50C - 30 分钟;4C 保温
在转化方面,最有效的修改出乎意料地简单:将细胞沉淀(通过离心机将它们旋转沉降,使它们聚集在试管底部),去除一半的供液体积,并在 4°C 下用细胞重悬液重新悬浮,然后再添加 DNA。虽然高效率化学感受态细胞通常被认为是脆弱的,但细胞很好地耐受了浓缩,分子碰撞的增加极大地提高了转化效率(最终验证时 >30 倍)。
同源介导克隆的新颖改进

T5 外切核酸酶产生 3′ 悬垂结构,gp32 通过抑制二级结构来稳定这些结构。RecA 然后从 3′ 末端侵入,置换 gp32 并促进同源搜索和退火。加热至 50 °C 会去除这两种蛋白,使聚合酶空隙填充和连接成为可能。
Gibson 组装的工作原理是让 DNA 片段拥有匹配的“粘性”末端,以便它们可以相互查找并连接。该反应使用两种不同的酶(一种聚合酶和一种连接酶)来密封连接的片段。在 RAPF-HiFi 中,引入了两种蛋白以使匹配步骤工作得更好。第一种,gp32,充当梳子,平滑和解开松散的 DNA 末端。第二种,RecA,充当向导,搜索每条链的正确伴侣并将匹配的片段拉到一起。较高的温度会导致这两种辅助因子从 DNA 上脱落,从而允许正常的 Gibson 酶完成反应。
总而言之,我们假设性能的提高是通过以下机制介导的:
- Gp32 覆盖未退火的单链 DNA (ssDNA) 尾部,去除二级结构
- RecA,通常被结构抑制,从 3' 端侵入并置换 gp32 纤维
- RecA 介导ssDNA:ssDNA 同源搜索,驱动退火
- 返回 50°C 会置换 RecA 和 gp32 纤维,使聚合酶和连接酶能够完成反应。
为了测试新颖的酶是否起作用,并排除性能提升仅由热步骤或缓冲液变化驱动的可能性,我们测试了 RAPF-HiFi 在没有 RecA,以及没有 RecA 和 gp32 两种情况下的性能。这两种反应的性能均相对于 RAPF-HiFi 降低,表明这两种蛋白对于 RAPF-HiFi 的作用机制都是必需的。
为了测试潜在的机制,我们将反应中的两种新酶:RecA 和 gp32 分开。我们表明,其中任何一种单独使用都会降低相对于 HiFi 基线的效率。(误差线:n=3 次独立实验的标准差)
RAPF-HiFi 的开发表明,GPT‑5 能够进行复杂的多维推理:
- RecA 受 DNA 结构抑制,值得注意的是,该模型同时引入了两个协同修改:添加 RecA,并通过 gp32 来去除 DNA 二级结构来对其进行补充。
- E. coli RecA 的天然伴侣是 E. coli 单链结合蛋白 (SSB)。SSB 在基因组复制、重组和修复过程中执行与 gp32 类似的作用。然而,E. coli SSB 不会足够快地自发脱离 DNA 以实现 RecA 纤维生长,RecFOR 复合物在体内促进 RecA 在 SSB 纤维上的成核。SSB 结合形成一个稳定的四聚体,具有极慢的脱离速率。相比之下,gp32 纤维更具动态性,允许 RecA 置换。
据我们所知,RecA 和 gp32 尚未在分子生物学方法中实现功能性共同使用。与许多新颖的分子生物学技术一样,潜在的生化活性已经得到研究,但将其用作实用、可泛化的方法构成了进步。
例如,RecA 和 gp32 的相互作用已在机械性体外重建测定中进行了研究:在 D 环形成的研究中,证明 gp32 能够增强 RecA 活性。Gp32 已与它的天然 T4 重组酶伴侣 UvsX 和重组酶加载因子 uvsY 在重组酶聚合酶扩增 (RPA) 中一起使用。尽管一份 RPA 专利说明书指出,已证明使用 E. coli RecA 在异源系统中与受损的(即工程化的、非野生型的)gp32 蛋白一起进行有效的 RPA 反应,但这一论断似乎仅作为某些专利披露中的一个侧重点,据我们所知,尚未得到已发表数据的支持或被采纳为稳健的基于 RecA 的 RPA 系统。一种称为 SLiCE 的克隆方法使用来自 E. coli 的全细胞提取物,其中含有 λ Red 重组系统,其中 Red beta 可能同时充当 DNA 结合蛋白和重组酶(尽管我们在提示中明确禁止使用细胞提取物)。在另一个应用中,Ferrin & Camerini-Otero 仅使用 RecA 来根据匹配序列选择性捕获 DNA 分子。此外,gp32 已被用作添加剂在称为 PCR 的 DNA 扩增过程中,以减少二级结构。NABSA 扩增被证明可以同时被 RecA 和 gp32 增强,尽管每种都能单独增强反应,但未发现协同作用。更广泛地说,对基本 Gibson 风格 DNA 组装反应的报告的改进很少,最著名的例子是一种提高组装效率约 2.5 倍的耐热 DNA 结合蛋白 (ET SSB)。
对于大多数应用,我们不期望 RAPF-HiFi 能与 HiFi/Gibson 克隆的简单性和稳健性竞争。然而,出现一种机械上不同的组装途径是值得注意的:GPT‑5 得出了一个解决方案,该方案结合了重组蛋白和反应动力学的不熟悉组合。潜在的机制可能是模块化的,提供了可以重新利用或重新组合到其他分子工作流程中的组件。我们也在继续探索改进 RAPF-HiFi 的方法。反应温度和步骤持续时间可以进行调整,以平衡 RecA 和 gp32 的活性与外切核酸酶的过度消化,并且这两种蛋白的量仍有待优化。GPT‑5 还提出了一种超活性 RecA 变体,我们目前正在纯化该变体。
关于转化方案,成功的优化条件涵盖了一系列添加剂和热扰动,旨在增强商业化10-beta 感受态细胞的热休克效率。在测试的 13 种 AI 生成的一炮式转化中,最有效的修改——转化 7 (T7)——是在 4°C 下对细胞进行沉淀,去除一半的供液体积,并在添加 DNA 之前将细胞重新悬浮。高效率化学感受态细胞通常被认为是脆弱的,通常会避免这种处理步骤。尽管如此,细胞很好地耐受了浓缩。DNA 暴露增加/细胞和缓冲液抑制减少共同导致的热休克更剧烈,从而使转化效率大幅提高(>30 倍)。
虽然这种转化方案是新颖的,但据报道有一种概念上相似的方法,其中细胞在更早的步骤中被浓缩。值得注意的是,GPT-5 开发的方法与市售化学感受态细胞兼容,无需内部制备细胞,同时超过了类似方法在可比细胞系上报告的效率提升。
机器人系统
为了提高该模型实验系统的吞吐量,Robot on Rails 和 Red Queen Bio 合作构建了一个机器人系统,该系统接收自然语言克隆协议并将其在湿实验中执行。
该系统结合了三个组成部分:1) 一个将普通英语转换为机器人动作的人机 LLM;2) 一个实时识别和定位实验室用具的视觉系统;以及 3) 一个机器人路径规划器,用于确定如何安全准确地执行每个动作。结果是一个灵活、通用的实验室机器人,它针对 Gibson 克隆协议的变体进行了进一步优化。
我们测试了自主机器人是否可以执行完整的克隆实验,方法是同时运行两个协议:标准的 HiFi 方法和 R8(第一轮优化中表现最佳的 AI 修改协议)。
我们将机器人的工作与人类执行的实验的每个步骤进行了比较。机器人成功处理了转化过程,该过程需要多种物理操作:转移和混合液体、移动样品管、对细胞施加受控的热量以及将细胞铺展到培养皿上。与人工转化的直接比较表明,机器人生成了相似质量的数据,相对于基线的改进程度相当,显示出自动化和加速生物实验优化的早期潜力。
虽然机器人和人工实验之间的倍数变化相似,但机器人产生的绝对菌落计数比手动执行的低约 10 倍,这表明在液体处理精度、温度控制校准以及复制手动细胞处理技术的细微差别等方面存在改进空间。
标准 HiFi 方法(基线)和改进的 R8 方法均由人类研究人员和自主机器人执行,转化效率相对于各自的 HiFi 基线对照(设定为 1.0)进行归一化。人工执行的 R8 显示出 2.39 倍的改进;机器人执行的 R8 实现了 2.13 倍的改进(达到人类性能的 89%),证明了尽管绝对产量较低,但具有可比的协议排名。
未来
我们相信这些实验为未来 AI 加速科学将是什么样子提供了一个快照:模型不断学习并与现实世界互动。尽管我们的实验排除了人为干预以纯粹衡量模型能力,但我们对AI 帮助人类科学家设计实验并为科学突破做出贡献感到特别兴奋。
在我们致力于安全负责任地加速科学进步的同时,我们也寻求评估和减少风险,特别是与生物安全相关的风险。这些评估结果表明,模型可以在湿实验中进行推理以改进协议,这可能对我们的《准备框架》中所述的生物安全产生影响。我们致力于在模型和系统级别构建必要且细致的保障措施,以降低这些风险,并开发评估以跟踪当前水平。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区