📢 转载信息
原文链接:https://news.mit.edu/2025/researchers-glimpse-inner-workings-protein-language-models-0818
原文作者:Anne Trafton | MIT News
洞察蛋白质语言模型的内部机制:麻省理工研究人员实现新突破
一项新方法可以揭示人工智能模型用来预测哪些蛋白质可能成为理想药物或疫苗靶点的特征。
在过去的几年里,用于预测蛋白质结构或功能的模型被广泛应用于各种生物学应用中,例如识别药物靶点和设计新型治疗性抗体。
这些模型基于大型语言模型(LLMs),可以非常准确地预测蛋白质对特定应用的适用性。然而,目前没有办法确定这些模型是如何做出预测的,以及哪些蛋白质特征在这些决策中起着最重要的作用。
在一项新研究中,麻省理工学院(MIT)的研究人员采用了一种创新的技术来打开这个“黑箱”,从而确定蛋白质语言模型在做出预测时考虑了哪些特征。理解这个黑箱内部发生的事情,可以帮助研究人员为特定任务选择更好的模型,从而简化发现新药物或疫苗靶点的过程。
“我们的工作对依赖这些表征的下游任务的增强可解释性具有广泛的意义,”论文资深作者、数学西蒙斯教授、MIT 计算机科学与人工智能实验室(CSAIL)计算与生物学组负责人 Bonnie Berger 表示。“此外,识别蛋白质语言模型所追踪的特征,还有潜力从这些表征中揭示新的生物学见解。”
MIT 研究生 Onkar Gujral 是这项于本周发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上的开放获取研究的主要作者。MIT 电子工程与计算机科学研究生 Mihir Bafna 和生物工程学教授 Eric Alm 也是该论文的作者。
打开“黑箱”
早在 2018 年,Berger 和前 MIT 研究生 Tristan Bepler(PhD ’20)介绍了第一个蛋白质语言模型。他们的模型以及后续加速 AlphaFold 开发的蛋白质模型(如 ESM2 和 OmegaFold)都是基于 LLM 的。这些模型(包括 ChatGPT)可以分析海量文本并找出最有可能一起出现的词语。
蛋白质语言模型采用类似的方法,但它们分析的是氨基酸序列而不是词语。研究人员已利用这些模型来预测蛋白质的结构和功能,并应用于识别可能与特定药物结合的蛋白质等任务。
在 2021 年的一项研究中,Berger 和同事们使用蛋白质语言模型来预测病毒表面蛋白中哪些部分不太可能发生突变而逃避免疫反应。这使得他们能够确定流感、艾滋病毒和 SARS-CoV-2 疫苗的潜在靶点。
然而,在所有这些研究中,都不可能知道模型是如何做出预测的。
“我们最终会得到一个预测结果,但我们完全不知道这个黑箱的各个组成部分内部发生了什么,”Berger 说。
在新研究中,研究人员希望深入探究蛋白质语言模型是如何做出预测的。与 LLM 类似,蛋白质语言模型将信息编码为表征,这些表征由神经网络中不同“节点”的激活模式组成。这些节点类似于大脑中存储记忆和其他信息的神经元网络。
LLM 的内部工作原理并不容易解释,但在过去几年里,研究人员开始使用一种称为稀疏自编码器(sparse autoencoder)的算法来帮助揭示这些模型是如何做出预测的。Berger 实验室的新研究是首次将该算法应用于蛋白质语言模型。
稀疏自编码器通过调整蛋白质在神经网络中的表示方式来工作。通常情况下,给定的蛋白质会由一个受限数量神经元(例如 480 个)的激活模式来表示。稀疏自编码器会将该表示扩展到更多数量的节点,例如 20,000 个。
当信息仅由 480 个神经元编码时,每个节点都会因多个特征而点亮,使得很难知道每个节点编码了哪些特征。然而,当神经网络扩展到 20,000 个节点时,这种额外的空间加上稀疏约束使得信息有空间“分散开来”。现在,先前由多个节点编码的蛋白质特征可以占据单个节点。
“在稀疏表示中,点亮的神经元以更有意义的方式点亮,”Gujral 解释道。“在创建稀疏表示之前,网络将信息打包得太紧密,以至于很难解释神经元的作用。”
可解释的模型
一旦研究人员获得了许多蛋白质的稀疏表示,他们就使用一个名为 Claude 的人工智能助手(与流行的 Anthropic 聊天机器人同名)来分析这些表征。在这种情况下,他们要求 Claude 将稀疏表征与每个蛋白质的已知特征(如分子功能、蛋白质家族或细胞内位置)进行比较。
通过分析数千个表征,Claude 可以确定哪些节点对应于特定的蛋白质特征,然后用通俗的英语描述它们。例如,该算法可能会说:“这个神经元似乎在检测参与离子或氨基酸跨膜转运的蛋白质,特别是那些位于质膜中的蛋白质。”
这个过程使节点更具“可解释性”,意味着研究人员可以分辨出每个节点编码了什么。他们发现,最有可能被这些节点编码的特征是蛋白质家族和某些功能,包括几种不同的代谢和生物合成过程。
“当你训练一个稀疏自编码器时,你并不是在训练它使其具有可解释性,但事实证明,通过激励表示要具有高度稀疏性,最终会产生可解释性,”Gujral 说道。
理解特定蛋白质模型编码了哪些特征可以帮助研究人员为特定任务选择合适的模型,或者调整他们输入模型的内容,以产生最佳结果。此外,分析模型编码的特征有一天可以帮助生物学家更多地了解他们正在研究的蛋白质。
“总有一天,随着模型的威力越来越大,你可以通过打开模型来学习比你已知更多的生物学知识,”Gujral 说。
该研究由美国国立卫生研究院(National Institutes of Health)资助。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区