📢 转载信息
原文链接:https://news.mit.edu/2025/3-questions-caroline-uhler-biology-medicine-data-revolution-0902
原文作者:Jane Halpern | Elvira Forte | Department of Electrical Engineering and Computer Science
深度对话:卡罗琳·乌勒教授谈生物学与医学的“数据革命”
麻省理工学院(MIT)的卡罗琳·乌勒(Caroline Uhler)教授,同时也是斯密特研究所(Schmidt Center)的主任,探讨了她在数学、生物学和人工智能交叉领域的工作,以及当前理解生命复杂交互的尖端研究。

图注:“当前机器学习的格局为解决生物组织不同层面的问题提供了独特机会,从蛋白质到生物体,这得益于生物学领域的数据革命和人工智能的显著进步,”卡罗琳·乌勒说。
图片来源:Jiin Kang

图注:乌勒对大规模多模态和干预性数据收集在科学和医学中的前景感到兴奋,但她也清醒地认识到,从如此庞大的数据集中获得真正洞察力所固有的问题。“虽然大规模多模态数据收集有望更深入地理解复杂的生物现象,并最终改善决策,但表示性学习(representation learning),尽管在预测任务中取得了成功,但在因果任务(如预测干预效果)中往往会失败。鉴于生物医学科学中最具挑战性的开放性问题本质上都是因果性的,这些领域的进展将极大地受益于将表示性学习与因果推断相结合,同时激励进一步的方法论发展,”她说。
图片来源:Jiin Kang
卡罗琳·乌勒(Caroline Uhler)是MIT的安德鲁(1956)和埃尔娜·维特比(Erna Viterbi)工程学教授;她是数据、科学与社会研究所(IDSS)的电气工程与计算机科学教授;并且是MIT和哈佛大学布罗德研究所(Broad Institute)的埃里克和温迪·施密特中心(Eric and Wendy Schmidt Center)的主任,同时也是该中心的核心研究所和科学领导团队成员。
乌勒对科学家们发现生物系统因果关系的所有方法感兴趣,范围从观察变量的因果发现到因果特征学习和表示性学习。在这次采访中,她讨论了机器学习在生物学中的应用、适合解决问题的新兴领域,以及施密特中心涌现出的前沿研究。
问:施密特中心的工作围绕生物组织结构的四个自然层面展开:蛋白质、细胞、组织和生物体。在当前的机器学习格局中,是什么使得现在是解决这些特定问题类的最佳时机?
答:生物学和医学目前正经历一场“数据革命”。大规模、多样化数据集的可用性——从基因组学和多组学数据到高分辨率成像和电子健康记录——使得现在成为一个绝佳时机。廉价且准确的DNA测序已成为现实,先进的分子成像已成为常规,单细胞基因组学技术使我们能够分析数百万个细胞的特征。这些创新以及它们产生的大规模数据集,将我们带入了一个生物学的新时代门槛。在这个时代,我们将能够超越表征生命的单元(如所有蛋白质、基因和细胞类型),转而理解“生命程序”,例如支撑组织模式形成的基因回路和细胞间通讯的逻辑,以及支撑基因型-表型图谱的分子机制。
与此同时,在过去十年中,机器学习取得了显著进步。像BERT、GPT-3和ChatGPT这样的模型在文本理解和生成方面展示了先进的能力,而视觉Transformer和CLIP等多模态模型在图像相关任务中达到了人类水平的性能。这些突破为适应生物数据提供了强大的架构蓝图和训练策略。例如,Transformer可以像处理语言一样对基因组序列进行建模,视觉模型可以分析医学和显微镜图像。
重要的是,生物学有望不仅是机器学习的受益者,也将是新机器学习研究的重要灵感来源。正如农业和育种激发了现代统计学一样,生物学有潜力启发新的、甚至更深远的机器学习研究途径。与推荐系统和互联网广告等领域不同——这些领域中没有自然规律可供发现,预测准确性是价值的最终衡量标准——在生物学中,现象是物理可解释的,因果机制是最终目标。此外,生物学拥有遗传和化学工具,使其能够在无与伦比的规模上进行扰动筛选。这些综合特征使得生物学在极大受益于机器学习的同时,也成为其深刻的灵感源泉。
问:换个角度看,生物学中哪些问题仍然非常抵触我们现有的工具集?在疾病或健康方面,您认为哪些领域特别适合解决?
答:机器学习已在图像分类、自然语言处理和临床风险建模等领域的预测任务中展现出非凡的成功。然而,在生物科学中,预测准确性往往是不够的。这些领域的基本问题本质上是因果性的:对特定基因或通路的扰动如何影响下游细胞过程?干预导致表型变化的作用机制是什么?传统机器学习模型主要针对观察数据中的统计关联进行优化,往往无法回答这类干预性问题。生物学和医学领域迫切需要激励机器学习领域出现新的基础性发展。
该领域现在配备了高通量扰动技术——例如池式CRISPR筛选、单细胞转录组学和空间分析——这些技术在系统性干预下产生了丰富的数据集。这些数据模式自然要求开发超越模式识别的模型,以支持在具有复杂、结构化潜在变量情况下的因果推断、主动实验设计和表示性学习。从数学角度看,这需要解决可识别性、样本效率以及组合、几何和概率工具整合等核心问题。我相信,解决这些挑战不仅将为细胞系统机制开辟新见解,还将推动机器学习的理论边界。
关于基础模型,该领域的一个共识是,我们距离创建一个跨尺度的、类似ChatGPT在语言领域所代表的生物学综合基础模型——一种能够模拟所有生物现象的“数字生物体”——还有很长的路要走。尽管几乎每周都有新的基础模型出现,但迄今为止,这些模型都专注于特定的尺度和问题,并且只关注一种或几种模态。
在根据蛋白质序列预测蛋白质结构方面已取得重大进展。这一成功凸显了迭代机器学习挑战的重要性,例如CASP(结构预测关键评估),它在对蛋白质结构预测的最新算法进行基准测试和推动其改进方面发挥了重要作用。
施密特中心正在组织挑战赛,以提高机器学习领域的认识,并推动解决对生物医学至关重要的因果预测问题的能力发展。随着单细胞水平上单基因扰动数据的日益增加,我相信预测单次或组合扰动的影响,以及哪些扰动可以驱动期望的表型,是可解决的问题。通过我们的“细胞扰动预测挑战”(CPPC),我们旨在提供客观测试和基准算法以预测新扰动效果的手段。
该领域取得显著进展的另一个领域是疾病诊断和患者分流。机器学习算法可以整合不同来源的患者信息(数据模态),生成缺失的模态,识别我们难以检测到的模式,并根据疾病风险对患者进行分层。尽管我们必须对模型预测中潜在的偏见、模型学习捷径而非真实相关性的危险,以及临床决策中自动化偏见的风险保持警惕,但我相信这是机器学习已经产生重大影响的领域。
问:让我们谈谈施密特中心近期的一些头条新闻。您认为目前哪些研究最值得人们关注,为什么?
答:我们与布罗德研究所的费·陈(Fei Chen)博士合作,最近开发了一种名为PUPS的方法,用于预测未见蛋白质的亚细胞定位。许多现有方法只能根据它们所训练的特定蛋白质和细胞数据进行预测。然而,PUPS结合了蛋白质语言模型和图像修复模型,可以同时利用蛋白质序列和细胞图像信息。我们证明,蛋白质序列输入有助于泛化到未见蛋白质,而细胞图像输入则捕捉了单细胞变异性,从而实现了特定于细胞类型的预测。该模型学习每个氨基酸残基与预测的亚细胞定位的相关程度,并且可以预测由于蛋白质序列突变导致的定位变化。由于蛋白质的功能与其亚细胞定位密切相关,我们的预测可以为潜在的疾病机制提供见解。未来,我们的目标是将此方法扩展到预测细胞中多种蛋白质的定位,并可能理解蛋白质-蛋白质相互作用。
与我长期合作的苏黎世联邦理工学院的G.V. Shivashankar教授一起,我们曾展示过,当与机器学习算法结合时,用荧光DNA嵌入染料标记染色质的简单细胞图像可以提供关于细胞在健康和疾病状态及命运的大量信息。最近,我们进一步证实了染色质组织与基因调控之间的深刻联系,开发了Image2Reg方法,该方法能够从染色质图像中预测未见基因的遗传或化学扰动。Image2Reg利用卷积神经网络学习被扰动细胞染色质图像的信息性表示。它还采用图卷积网络来创建基因嵌入,该嵌入根据蛋白质-蛋白质相互作用数据,并结合细胞类型特异性的转录组学数据,捕获基因的调控效应。最后,它学习连接细胞的物理和生化表示之间的映射,使我们能够根据染色质图像预测被扰动的基因模块。
此外,我们最近完成了用于预测未见组合基因扰动结果并识别基因之间相互作用类型的方法的开发。MORPH可以指导实验室循环实验中最具信息量的扰动设计。此外,基于注意力的框架证明使我们的方法能够识别基因之间的因果关系,从而深入了解潜在的基因调控程序。最后,由于其模块化结构,我们可以将MORPH应用于以各种模态测量的扰动数据,包括转录组学和成像。我们对该方法的潜力感到非常兴奋,它可以通过将因果理论与重要应用(对基础研究和治疗应用都有影响)联系起来,从而实现对扰动空间的有效探索,以增进我们对细胞程序的理解。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区