目 录CONTENT

文章目录

PLAID:一种能够从序列数据生成蛋白质结构的多模态生成模型

Administrator
2026-03-14 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/04/08/plaid/

原文作者:Amy X. Lu, Wilson Yan, Sarah A. Robinson, Kevin K. Yang, Vladimir Gligorijevic, Kyunghyun Cho, Richard Bonneau, Pieter Abbeel, Nathan C. Frey


PLAID 是一种多模态生成模型,它通过学习蛋白质折叠模型的潜在空间,同时生成蛋白质的一维序列和三维结构。

2024年诺贝尔化学奖授予AlphaFold2,标志着AI在生物学领域的重要认可。蛋白质折叠之后,下一步又是什么?

PLAID中,我们开发了一种学习从蛋白质折叠模型的潜在空间采样的方法来生成新蛋白质。它可以接受组合式功能和生物体提示,并且可以在序列数据库上进行训练,这些数据库的规模比结构数据库大2-4个数量级。与许多以前的蛋白质结构生成模型不同,PLAID解决了多模态联合生成的问题设定:同时生成离散序列和连续的原子全结构坐标。

从结构预测到现实世界的药物设计

尽管最近的工作在扩散模型生成蛋白质方面展示了潜力,但先前模型仍然存在一些限制,使其不适用于实际应用,例如:

  • 全原子生成:许多现有的生成模型仅生成主链原子。要生成全原子结构并放置侧链原子,我们需要知道序列。这就产生了一个需要同时生成离散和连续模态的多模态生成问题。
  • 生物体特异性:供人类使用的生物制剂需要进行人源化,以避免被人类免疫系统破坏。
  • 控制规范:药物发现并将其应用于患者是一个复杂的过程。我们如何指定这些复杂的约束?例如,即使解决了生物学问题,您也可能决定片剂比药瓶更容易运输,从而增加了对溶解度的全新约束。

生成“有用”的蛋白质

仅仅生成蛋白质不如控制生成以获得有用的蛋白质那么有价值。这种界面的外观可能是什么样的?


为了获得灵感,让我们参考一下如何通过组合文本提示来控制图像生成(示例来自Liu et al., 2022)。

在PLAID中,我们为控制规范镜像了这个界面。最终目标是通过文本界面完全控制生成,但在这里,我们将其作为概念验证,考虑了两个轴的组合约束:功能生物体


学习功能-结构-序列的联系。 PLAID学习了常见于金属蛋白的四面体半胱氨酸-Fe2+/Fe3+配位模式,同时保持了高水平的序列多样性。

使用仅序列的训练数据进行训练

PLAID模型的另一个重要方面是,我们只需要序列来训练生成模型!生成模型学习由其训练数据定义的 数据分布,序列数据库比结构数据库大得多,因为获取序列比获取实验结构便宜得多。


从更大、更广泛的数据库中学习。 获取蛋白质序列的成本远低于实验表征结构,并且序列数据库比结构数据库大2-4个数量级。

它是如何工作的?

我们能够仅使用序列数据训练生成模型来生成结构的原因是,我们学习了一个在蛋白质折叠模型的潜在空间上的扩散模型。然后在推理过程中,从有效蛋白质的潜在空间采样后,我们可以从蛋白质折叠模型中获取冻结权重来解码结构。在这里,我们使用了 ESMFold,它是AlphaFold2模型的后继者,用蛋白质语言模型取代了检索步骤。


我们的方法。 在训练过程中,只需要序列即可获得嵌入;在推理过程中,我们可以从采样嵌入中解码序列和结构。❄️表示冻结权重。

通过这种方式,我们可以利用预训练蛋白质折叠模型权重中的结构理解信息来完成蛋白质设计任务。这类似于机器人领域的视觉-语言-动作(VLA)模型,它们利用在互联网规模数据上训练的视觉-语言模型(VLM)中包含的先验知识来提供感知、推理和理解信息。

压缩蛋白质折叠模型的潜在空间

直接应用此方法的一个小难题是,ESMFold的潜在空间——事实上,许多基于Transformer的模型潜在空间——需要大量的正则化。这个空间也非常大,因此学习这个嵌入最终会映射到高分辨率图像合成。

为了解决这个问题,我们还提出了CHEAP (Compressed Hourglass Embedding Adaptations of Proteins),即我们学习一个压缩模型来联合嵌入蛋白质序列和结构。


研究潜在空间。 (A) 当我们可视化每个通道的平均值时,一些通道表现出“大规模激活”。(B) 如果我们开始检查与中值(灰色)相比的前3个激活值,我们会发现这种情况发生在许多层。(C) 对于其他基于Transformer的模型也观察到了大规模激活。

我们发现这个潜在空间实际上是高度可压缩的。通过进行一些机制解释工作来更好地理解我们正在处理的基础模型,我们能够创建一个全原子的蛋白质生成模型。

下一步是什么?

尽管我们在本工作中考察了蛋白质序列和结构生成的情况,但我们可以将此方法改编用于多模态生成,适用于任何从更丰富的模态到不太丰富的模态存在预测器的模态。随着蛋白质序列到结构预测器开始处理越来越复杂的系统(例如,AlphaFold3也能够预测蛋白质与核酸和分子配体复合物),使用相同的方法对更复杂的系统进行多模态生成很容易想象。如果您有兴趣合作扩展我们的方法,或在湿式实验室中测试我们的方法,请联系我们!

更多链接

如果您觉得我们的论文在您的研究中有帮助,请考虑使用以下PLAID和CHEAP的BibTeX:

@article{lu2024generating, title={Generating All-Atom Protein Structure from Sequence-Only Training Data}, author={Lu, Amy X and Yan, Wilson and Robinson, Sarah A and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Bonneau, Richard and Abbeel, Pieter and Frey, Nathan}, journal={bioRxiv}, pages={2024--12}, year={2024}, publisher={Cold Spring Harbor Laboratory}
}
@article{lu2024tokenized, title={Tokenized and Continuous Embedding Compressions of Protein Sequence and Structure}, author={Lu, Amy X and Yan, Wilson and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Abbeel, Pieter and Bonneau, Richard and Frey, Nathan}, journal={bioRxiv}, pages={2024--08}, year={2024}, publisher={Cold Spring Harbor Laboratory}
}

您还可以查看我们的预印本(PLAIDCHEAP)和代码库(PLAIDCHEAP)。



一些有趣的额外蛋白质生成示例!


PLAID根据功能提示进行的额外功能生成。




PLAID的无条件生成。




跨膜蛋白的核心具有疏水残基,嵌入脂肪酸层中。当使用跨膜蛋白关键词提示PLAID时,这些会持续观察到。




基于功能关键词提示的活性位点重现的额外示例。




比较PLAID与全原子基线之间的样本。PLAID样本具有更好的多样性,并捕捉了蛋白质生成模型一直难以学习的β-折叠模式。



致谢

感谢Nathan Frey对本文的详细反馈,以及BAIR、Genentech、Microsoft Research和纽约大学的合著者:Wilson Yan、Sarah A. Robinson、Simon Kelow、Kevin K. Yang、Vladimir Gligorijevic、Kyunghyun Cho、Richard Bonneau、Pieter Abbeel和Nathan C. Frey。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区