📢 转载信息
原文链接:https://news.mit.edu/2025/generative-ai-approach-to-predicting-chemical-reactions-0903
原文作者:David Chandler | Department of Chemical Engineering
重磅突破:融合物理约束的生成式AI,实现高精度化学反应预测
许多尝试利用最新人工智能和大型语言模型(LLMs)来预测新化学反应结果的努力,至今收效甚微。主要原因在于,这些模型在以往的尝试中未能建立在对基本物理原理(如质量守恒定律)的理解之上。如今,麻省理工学院(MIT)的研究人员找到了一种方法,将这些物理约束融入到反应预测模型中,从而极大地提高了其输出的准确性和可靠性。
这项新研究已于8月20日发表在《自然》(Nature)杂志上。论文作者包括近期博士后Joonyoung Joung(现任韩国国民大学助理教授)、前软件工程师Mun Hong Fong(现任杜克大学)、化学工程研究生Nicholas Casetti、博士后Jordan Liles、物理本科生Ne Dassanayake,以及资深作者Connor Coley(麻省理工学院化学工程系和电子工程与计算机科学系的Coley教授职业发展教授)。
告别“炼金术”:为什么传统LLM在化学反应预测中受限?
Joung解释说:“反应结果的预测是一项极其重要的任务。”例如,如果你想制造一种新药,“你需要知道如何制造它。这就要求我们了解给定一组化学输入后,最有可能产生什么产物。”
然而,大多数先前的预测尝试只关注输入集和输出集,而忽略了中间步骤,也没有考虑反应过程中质量不增不减的约束条件,这在实际反应中是无法打破的。
Joung指出,尽管像ChatGPT这样的大型语言模型在许多研究领域取得了巨大成功,但它们无法将输出限制在物理上合理的可能性内,例如要求它们遵守质量守恒。这些模型使用计算“令牌”(tokens),在这里代表单个原子,但“如果你不守恒这些令牌,LLM模型就会开始创造新原子,或者在反应中删除原子。” 他说,这“有点像炼金术”,而不是基于真正的科学理解。与只关注最终产物的许多反应预测方法不同,“我们希望追踪反应过程中所有化学物质的变化和转化,从开始到结束。”
图注: FlowER(用于电子重排的流匹配)系统允许研究人员明确跟踪反应中的所有电子,以确保在预测化学反应结果的过程中,没有电子被虚假地添加或删除。
图片来源: 研究人员提供。
FlowER系统:基于经典化学原理的生成式AI
为了解决这个问题,研究团队采用了化学家Ivar Ugi在20世纪70年代开发的一种方法,该方法使用键-电子矩阵来表示反应中的电子。他们以此为基础,开发了新的程序,命名为FlowER(Flow matching for Electron Redistribution,用于电子重排的流匹配)。该系统使他们能够明确追踪反应中的所有电子,确保在过程中没有电子被错误地增加或删除。
Fong说,该系统使用矩阵来表示反应中的电子,用非零值表示键或孤对电子,用零表示缺乏电子。“这有助于我们同时守恒原子和电子。”他表示,这种表征是将其预测系统纳入质量守恒的关键要素之一。
概念验证与未来展望
Coley表示,他们开发的系统仍处于早期阶段。“目前的系统是一个演示——证明了这种流匹配的生成式方法非常适合化学反应预测任务。”虽然团队对这种有前景的方法感到兴奋,但他指出,“我们也意识到,就其所见过的化学反应的广度而言,它存在特定的局限性。”尽管该模型使用了来自美国专利商标局数据库的超过一百万个化学反应数据进行训练,但这些数据不包括某些金属和某些类型的催化反应。
他表示,团队对现有系统能够提供如此可靠的化学反应机理预测感到非常兴奋。“它守恒质量,守恒电子,但我们当然承认,在未来几年里,仍有许多扩展和增强的工作要做。”
Coley表示,即使在其现有形式下(该系统已通过GitHub在线平台免费提供),“我们认为它将对评估反应活性和描绘反应路径做出准确的预测并有所帮助。”他补充道:“如果我们展望未来,真正推进机理理解的前沿并帮助发明新反应,我们还没有达到那个阶段。但这希望能成为一个垫脚石。”
Fong说:“这一切都是开源的。”“模型、数据,所有内容都在那里,”包括Joung之前开发的一个详尽列出已知反应机理步骤的数据集。“我认为我们是首批创建此类数据集、并将其开源、让所有人都能使用的先锋团队之一。”
研究团队表示,FlowER模型在寻找标准的机理路径方面,与现有方法相当或表现更优,并能泛化到以前未见的反应类型。他们认为该模型可能与药物化学、材料发现、燃烧、大气化学和电化学系统的反应预测相关。
在与现有反应预测系统的比较中,Coley说:“通过我们所做的架构选择,我们在有效性和守恒性上获得了巨大的提升,并且我们在性能方面达到了匹配或略微更好的准确性。”
他补充道:“我们方法独特之处在于,虽然我们使用教科书上对机理的理解来生成这个数据集,但我们将整体反应的反应物和产物锚定在专利文献中经过实验验证的数据上。”他解释说,他们是在推断潜在的机理,而不是凭空捏造。“我们是根据实验数据推断的,以前从未有人以这种规模进行过并分享过。”
他表示,下一步是“我们非常希望能扩展模型对金属和催化循环的理解。在这篇开创性的论文中,我们才刚刚触及皮毛,”而且到目前为止包含的大多数反应都不涉及金属或催化剂,“所以这是一个我们非常感兴趣的方向。”
从长远来看,他表示,“许多令人兴奋的地方在于使用这种系统来帮助发现新的复杂反应并阐明新的机理。我认为长期潜在影响是巨大的,但这当然只是第一步。”
这项工作得到了药物发现与合成机器学习联盟(Machine Learning for Pharmaceutical Discovery and Synthesis consortium)和美国国家科学基金会(National Science Foundation)的支持。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区