PLAID：一种同时生成蛋白质1D序列和3D结构的生成模型-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2025/04/08/plaid/

原文作者：

PLAID 是一种多模态生成模型，通过学习蛋白质折叠模型的潜在空间，可以同时生成蛋白质的1D序列和3D结构。

2024年诺贝尔奖授予AlphaFold2，标志着人工智能在生物学中发挥的作用得到了重要认可。那么，在蛋白质折叠之后，下一步是什么呢？

在PLAID中，我们开发了一种方法，可以学习从蛋白质折叠模型的潜在空间中进行采样，从而生成新的蛋白质。它可以接受组合式功能和生物体提示，并且可以在序列数据库上进行训练，这些数据库的规模比结构数据库大2到4个数量级。与许多早期的蛋白质结构生成模型不同，PLAID解决了多模态共生成问题：同时生成离散的序列和连续的全原子结构坐标。

从结构预测到真实世界的药物设计

尽管最近的工作展示了扩散模型生成蛋白质的潜力，但现有模型仍存在一些限制，使其不适合实际应用，例如：

全原子生成：许多现有的生成模型只生成骨架原子。要生成全原子结构并放置侧链原子，我们需要知道序列。这就产生了一个需要同时生成离散和连续模态的多模态生成问题。
生物体特异性：旨在用于人体的生物制剂需要被人性化，以避免被人体免疫系统破坏。
控制规范：药物发现并将其交给患者是一个复杂的过程。我们如何指定这些复杂的约束条件呢？例如，即使解决了生物学问题，你也可能认为药片比小瓶更容易运输，这会给溶解性增加一个新的约束条件。

生成“有用”的蛋白质

仅仅生成蛋白质的用处不大，控制生成以获得有用的蛋白质才更有价值。这样的接口可能是什么样子呢？

为了获得灵感，让我们考虑如何通过组合式文本提示来控制图像生成（示例来自Liu 等人，2022 年）。

在 PLAID 中，我们为控制规范镜像了这种接口。最终目标是通过纯文本界面完全控制生成，但在这里我们考虑了两个轴的组合约束作为概念验证：功能和生物体：

学习功能-结构-序列的联系。 PLAID 学习了金属蛋白中常见的四面体半胱氨酸-Fe²⁺/Fe³⁺配位模式，同时保持高序列水平的多样性。

使用仅限序列的训练数据进行训练

PLAID 模型的另一个重要方面是，我们仅需要序列来训练生成模型！生成模型学习由其训练数据定义的分布，并且序列数据库明显大于结构数据库，因为获取序列比获取实验结构便宜得多。

从更大、更广泛的数据库中学习。 获取蛋白质序列的成本远低于实验表征结构，而且序列数据库比结构数据库大 2 到 4 个数量级。

它是如何工作的？

我们能够仅使用序列数据训练生成模型来生成结构的原因是，我们学习了蛋白质折叠模型的潜在空间上的一个扩散模型。然后在推理过程中，从有效蛋白质的潜在空间中采样后，我们可以使用蛋白质折叠模型的冻结权重来解码结构。在这里，我们使用了 ESMFold，它是 AlphaFold2 模型的继承者，它用蛋白质语言模型取代了检索步骤。

我们的方法。 训练期间，仅需要序列来获取嵌入；推理期间，我们可以从采样的嵌入中解码序列和结构。❄️ 表示冻结的权重。

通过这种方式，我们可以利用预训练蛋白质折叠模型中包含的结构理解信息来进行蛋白质设计任务。这类似于机器人技术中的视觉-语言-动作（VLA）模型如何利用在互联网规模数据上训练的视觉-语言模型（VLM）中包含的先验知识，来提供感知、推理和理解信息。

压缩蛋白质折叠模型的潜在空间

直接应用此方法的有一个小问题是 ESMFold 的潜在空间——事实上，许多基于 Transformer 的模型的潜在空间——需要大量的正则化。这个空间也非常大，因此学习这个嵌入最终会映射到高分辨率的图像合成。

为了解决这个问题，我们还提出了 CHEAP (Compressed Hourglass Embedding Adaptations of Proteins，蛋白质压缩沙漏嵌入适配)**，我们学习了一个用于蛋白质序列和结构联合嵌入的压缩模型。

研究潜在空间。 (A) 当我们可视化每个通道的平均值时，一些通道会表现出“巨大激活”。(B) 如果我们开始检查前 3 个激活与中值（灰色）的比较，我们会发现这种情况发生在许多层上。(C) 对于其他基于 Transformer 的模型也观察到了巨大激活。

我们发现这个潜在空间实际上是高度可压缩的。通过对我们正在处理的基础模型进行一些机制可解释性研究，我们才能够创建一个全原子蛋白质生成模型。

下一步是什么？

尽管我们在这项工作中研究了蛋白质序列和结构生成的案例，但我们可以将此方法适应于任何模态对，只要存在一个从更丰富的模态到更稀疏模态的预测器，就可以进行多模态生成。随着蛋白质的序列到结构预测器开始处理越来越复杂的系统（例如 AlphaFold3 也能够预测与核酸和分子配体复合物中的蛋白质），使用相同的方法对更复杂的系统进行多模态生成是很容易想象的。如果您有兴趣合作扩展我们的方法，或在湿实验室中测试我们的方法，请与我们联系！

更多链接

如果您觉得我们的论文对您的研究有帮助，请考虑使用以下 PLAID 和 CHEAP 的 BibTeX 信息：

@article{lu2024generating, title={Generating All-Atom Protein Structure from Sequence-Only Training Data}, author={Lu, Amy X and Yan, Wilson and Robinson, Sarah A and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Bonneau, Richard and Abbeel, Pieter and Frey, Nathan}, journal={bioRxiv}, pages={2024--12}, year={2024}, publisher={Cold Spring Harbor Laboratory} }

@article{lu2024tokenized, title={Tokenized and Continuous Embedding Compressions of Protein Sequence and Structure}, author={Lu, Amy X and Yan, Wilson and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Abbeel, Pieter and Bonneau, Richard and Frey, Nathan}, journal={bioRxiv}, pages={2024--08}, year={2024}, publisher={Cold Spring Harbor Laboratory} }

您也可以查看我们的预印本（PLAID, CHEAP）和代码库（PLAID, CHEAP）。

一些有趣的蛋白质生成示例！

PLAID 使用功能提示生成的附加示例。

PLAID 的无条件生成。

跨膜蛋白在核心具有疏水残基，核心嵌入脂肪酸层中。当使用跨膜蛋白关键词提示 PLAID 时，这些残基是一致观察到的。

基于功能关键词提示的活性位点重现的附加示例。

比较 PLAID 和全原子基线之间的样本。PLAID 样本具有更好的多样性，并捕获了对蛋白质生成模型而言更难学习的 $eta$ 链模式。

致谢

感谢 Nathan Frey 对本文的详细反馈，以及来自 BAIR、基因泰克、微软研究院和纽约大学的合作作者：Wilson Yan、Sarah A. Robinson、Simon Kelow、Kevin K. Yang、Vladimir Gligorijevic、Kyunghyun Cho、Richard Bonneau、Pieter Abbeel 和 Nathan C. Frey。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。