📢 转载信息
原文作者:Will Douglas Heaven
在 2017 年,约翰·邓珀(John Jumper)刚从理论化学专业毕业,就听到了一个传闻:谷歌 DeepMind 已经放弃了构建能以超人技能玩游戏的 AI,开始了一个秘密项目,旨在预测蛋白质的结构。于是他申请了一份工作。
仅仅三年后,邓珀庆祝了一个出人意料的惊人胜利。他与首席执行官德米斯·哈萨比斯(Demis Hassabis)共同领导开发了一个名为 AlphaFold 2 的 AI 系统,该系统能够以原子级别的精度预测蛋白质结构,其准确性与实验室中费时的技术相媲美,但速度却快得多——结果只需几小时就能返回,而不是几个月。
AlphaFold 2 解决了生物学中一个持续了 50 年的重大挑战。几年前,哈萨比斯告诉我:“这就是我创立 DeepMind 的原因。事实上,这也是我整个职业生涯都在从事人工智能研究的原因。” 2024 年,邓珀和哈萨比斯因其在蛋白质预测 AI 方面的成就共同获得了诺贝尔化学奖。
AlphaFold 2 首次亮相至今已满五年,当时它让科学家们感到惊讶。现在热度已经消退,AlphaFold 究竟产生了什么影响?科学家们是如何使用它的?接下来会发生什么?我与邓珀(以及其他几位科学家)进行了交谈,以了解情况。
“这五年真是非同寻常,”邓珀笑着说:“很难想象没有认识大量记者的日子。”
AlphaFold 2 之后是 AlphaFold Multimer,它可以预测包含多个蛋白质的结构;接着是更新的 AlphaFold 3,这是迄今为止最快的版本。谷歌 DeepMind 还将 AlphaFold 应用于 UniProt,这是一个被全球数百万研究人员使用和更新的庞大蛋白质数据库。到目前为止,它已经预测了约 2 亿个蛋白质的结构,几乎涵盖了科学界已知的所有蛋白质。
尽管取得了成功,邓珀对 AlphaFold 的成就仍然保持谦逊。“这并不意味着我们对其中的一切都确信无疑,”他说。“这是一个预测数据库,它带有所有预测的注意事项。”
一个难题
蛋白质是维持生命活动的生物机器。它们构成肌肉、角和羽毛;它们在体内输送氧气,并在细胞间传递信息;它们激发神经元,消化食物,为免疫系统提供动力,等等。但要确切了解蛋白质的作用(以及它在各种疾病或治疗中可能扮演的角色),就需要弄清楚其结构——这很困难。
蛋白质由氨基酸链组成,这些氨基酸链在化学力的作用下扭曲成复杂的结。一根未扭曲的链条很难揭示它将形成的结构。理论上,大多数蛋白质可以采取天文数字般的可能形状。任务就是预测出正确的那个。
邓珀和他的团队使用了一种称为 Transformer 的神经网络来构建 AlphaFold 2,这与支撑大型语言模型(LLM)的技术相同。Transformer 非常擅长关注较大难题中的特定部分。
但邓珀将很大一部分成功归功于制作了一个可以快速测试的原型模型。“我们有了一个能以惊人的速度给出错误答案的系统,”他说。“这使得人们很容易开始尝试非常大胆的想法。”
他们将神经网络塞入了尽可能多的蛋白质结构信息,例如某些物种的蛋白质如何进化出相似的形状。结果比他们预期的还要好。“我们确信我们取得了突破,”邓珀说。“我们确信这是一个在思想上的巨大进步。”
但他没有预料到的是,研究人员会立即下载他的软件并将其用于如此多的不同领域。他说,通常情况下,在消除所有问题之后,后续迭代才能产生真正的效果:“我对科学家们解释和使用它的方式感到惊讶,他们使用的程度在我看来是恰当的,不多不少。”
有没有特别突出的项目?
蜜蜂科学
邓珀提到了一个利用 AlphaFold 研究蜜蜂抗病性的研究小组。“他们想在研究蜂群崩溃等问题时了解这种特定的蛋白质,”他说。“我绝对不会想到,‘你知道,AlphaFold 当然会被用于蜜蜂科学。’”
他还强调了几个邓珀称之为 AlphaFold “超说明书使用”的例子——“从技术上讲,它不能保证奏效”——其中对蛋白质结构预测能力的应用开辟了新的研究技术。“第一个最明显的进步是蛋白质设计,”他说。“大卫·贝克(David Baker)和其他人已经完全利用了这项技术。”
贝克是华盛顿大学的计算生物学家,是去年诺贝尔化学奖的共同获奖者,与邓珀和哈萨比斯一起获奖,以表彰他在创造合成蛋白质方面的开创性工作,这些蛋白质在治疗疾病或分解塑料等特定任务上的表现优于天然蛋白质。
贝克和他的同事们开发了自己的基于 AlphaFold 的工具,称为 RoseTTAFold。但他们也试验了 AlphaFold Multimer,以预测他们设计的潜在合成蛋白质中哪些会奏效。
“基本上,如果 AlphaFold 对你试图设计的结构表示出强烈的认同,你就去制造它;如果 AlphaFold 说‘我不知道’,你就不要制造它,”他说。邓珀表示,仅此一项就带来了巨大的改进。它可以使设计过程快 10 倍。
邓珀强调的另一个超说明书用途是:将 AlphaFold 变成一种搜索引擎。他提到了两个独立的研究小组,他们试图确切了解人类精子细胞如何在受精过程中与卵子结合。他说,他们知道其中一种涉及的蛋白质,但不知道另一种:“所以他们拿了一种已知的卵子蛋白质,运行了所有 2000 种人类精子表面蛋白质,发现了一种 AlphaFold 非常确信会与卵子结合的蛋白质。”随后他们得以在实验室中确认这一点。
“这种可以用 AlphaFold 做以前做不到的事情——你不会为了寻找一个答案而进行 2000 次结构搜索,”他说。“我认为这种事情是真正非凡的。”
五年后
AlphaFold 2 发布时,我询问了几位早期使用者对它的看法。评价不错,但这项技术太新了,无法确定其长期影响。时隔五年,我联系了其中一位用户,听听他的想法。
克里门特·韦尔巴(Kliment Verba)是加州大学旧金山分校的分子生物学家。“这是一项极其有用的技术,这一点毫无疑问,”他告诉我。“我们每天、随时都在使用它。”
但它远非完美。许多科学家使用 AlphaFold 来研究病原体或开发药物。这涉及研究多个蛋白质之间的相互作用,或者蛋白质与体内更小分子之间的相互作用。但 AlphaFold 在预测多个蛋白质或它们随时间变化的相互作用方面准确性较低,这一点是众所周知的。
韦尔巴说,他和他的同事们使用 AlphaFold(同时使用 2 和 3 版本,因为它们有不同的优势)足够久了,已经习惯了它的局限性。“在很多情况下,当你得到一个预测结果时,你得挠挠头,”他说。“这是真实的还是不真实?这并不完全清楚——它有点处于临界状态。”
“这有点像 ChatGPT,”他补充道。“你知道——它会用与给出真实答案相同的自信程度来胡说八道。”
尽管如此,韦尔巴的团队还是使用 AlphaFold(同时使用 2 和 3 版本)在实验室进行实验之前,先运行虚拟版本的实验。利用 AlphaFold 的结果,他们可以缩小实验的重点——或者决定不值得进行这项实验。
他说,这确实可以节省时间:“它并没有真正取代任何实验,但极大地增强了它们。”
新浪潮
AlphaFold 的设计目的就是用于各种目的。现在,多家初创公司和大学实验室正在利用其成功,开发新一代更专注于药物发现的工具。今年,麻省理工学院研究人员与 AI 药物公司 Recursion 合作,开发了一个名为 Boltz-2 的模型,该模型不仅可以预测蛋白质结构,还可以预测潜在药物分子与其靶点结合的程度。
上个月,初创公司 Genesis Molecular AI 发布了另一个结构预测模型 Pearl,该公司声称,在对药物开发至关重要的某些查询方面,它的准确性超过了 AlphaFold 3。Pearl 具有交互性,因此药物开发人员可以向模型输入他们可能拥有的任何附加数据,以指导其预测。
Genesis Molecular AI 的首席执行官埃文·费因伯格(Evan Feinberg)表示,AlphaFold 是一个巨大的飞跃,但仍有更多工作要做。“我们仍在从根本上进行创新,只是起点比以前更好了。”
Genesis Molecular AI 正在将误差范围从 AlphaFold设定的、实际上是行业标准的不到两埃(Ångström)降低到不到一埃——即十亿分之一厘米,或单个氢原子的宽度。
该公司建模与模拟副总裁迈克尔·莱文(Michael LeVine)表示:“微小的错误对于预测药物将与靶点结合得多好可能会是灾难性的。”这是因为在单个埃的尺度上相互作用的化学力,在两个埃的尺度上可能会停止作用。“它可能会从‘它们永远不会相互作用’变为‘它们会相互作用’,”他说。
鉴于该领域的巨大活力,我们应该多快能看到新型药物上市?邓珀很务实。他表示,蛋白质结构预测只是众多步骤之一:“这并不是生物学中唯一的问题。这并不意味着我们离治愈任何疾病只差一个蛋白质结构。”
他打了个比方。以前,在实验室中确定一个蛋白质的结构可能花费 10 万美元:“如果我们离做成一件事只差 10 万美元,那早就完成了。”
与此同时,研究人员正在寻找利用这项技术尽可能多地完成工作的方法,邓珀说:“我们正在努力使结构预测成为问题中更大的一部分,因为我们有一个不错的、足够大的锤子可以去敲打它。”
换句话说,把所有东西都变成钉子?“是的,让我们把东西变成钉子,”他说。“我们如何让这个我们已经加快了百万倍速度的东西成为我们流程中更大的一部分?”
下一步是什么?
邓珀的下一部是什么?他想将 AlphaFold 深入但狭窄的能力与大型语言模型(LLM)的广泛性融合起来。
“我们有能够阅读科学的机器。它们可以进行一些科学推理,”他说。“而且我们可以为蛋白质结构预测构建出令人惊叹的、超人的系统。你如何让这两种技术协同工作?”
这让我想起谷歌 DeepMind 另一个团队正在构建的一个名为 AlphaEvolve 的系统。AlphaEvolve 使用 LLM 生成问题的可能解决方案,并使用第二个模型进行检查,过滤掉垃圾信息。研究人员已经使用 AlphaEvolve 在数学和计算机科学中取得了一些实际发现。
这是否就是邓珀所想的?“我不会透露太多关于方法的信息,但我对 LLM 将越来越多地影响科学感到惊讶,”他说。“我认为这是一个令人兴奋的悬而未决的问题,但我几乎不会谈论它。当然,这都是猜测。”
邓珀在获得诺贝尔奖时 39 岁。他接下来的目标是什么?
“这让我很担心,”他说。“我相信我是 75 年来最年轻的化学奖得主。”
他补充道:“我正处于职业生涯的中点,大概是这样。我的方法是尝试做一些更小的事情,一些你会一直追溯的小想法。我宣布的下一件事不必是,你知道的,我的第二次诺贝尔奖机会。我认为那是陷阱。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区