目 录CONTENT

文章目录

MIT发布新型AI模型:精准预测分子在不同溶剂中的溶解度

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/new-model-predicts-how-molecules-will-dissolve-in-different-solvents-0819

原文作者:Anne Trafton | MIT News


基于机器学习的新模型,助力预测分子在各种溶剂中的溶解能力

溶解度预测是几乎所有药物合成过程中的关键瓶颈。麻省理工学院(MIT)的化学工程师们利用机器学习开发出了一个计算模型,能够预测任何给定分子在特定有机溶剂中的溶解程度。这一突破有望大大简化新药和其他有用分子的开发与生产流程。

更智能的溶剂选择,更绿色的化学合成

研究人员表示,这个新模型可以帮助化学家在合成反应中选择最合适的溶剂。常见的有机溶剂包括乙醇和丙酮等,但在化学反应中还可使用数百种其他溶剂。

该研究的通讯作者之一、MIT研究生Lucas Attia指出:“预测溶解度确实是化学品,尤其是药物合成规划和制造中的一个限速步骤,因此,能够做出更好的溶解度预测一直是人们长期关注的焦点。”

研究人员已将他们的模型免费提供给公众使用,许多公司和实验室已经开始采用它。研究人员认为,该模型在识别毒性低于常用工业溶剂的替代品方面尤其有用。

另一位主要作者、MIT研究生Jackson Burns解释道:“有些溶剂以能溶解大多数物质而闻名,它们非常有用,但对环境和人体有害。许多公司要求必须最大限度地减少这些溶剂的使用量。我们的模型在识别‘次优’溶剂方面极其有用,而这些替代溶剂有望对环境危害小得多。”

该研究的资深作者是MIT化学工程系的Hoyt Hottel讲座教授兼MIT能源倡议组织主任William Green。该研究已发表在《自然-通讯》(Nature Communications)杂志上。Patrick Doyle教授也是该论文的作者之一。

解决溶解度难题

这个新模型源于Attia和Burns在MIT一个关于将机器学习应用于化学工程问题的课程中共同进行的一个项目。传统上,化学家使用一种称为阿布拉罕溶解模型(Abraham Solvation Model)的工具来预测溶解度,该工具通过累加分子内化学结构的贡献来估算整体溶解度。尽管这些预测有用,但其准确性有限。

近年来,研究人员开始利用机器学习来尝试做出更精确的溶解度预测。在Burns和Attia开发新模型之前,最先进的溶解度预测模型是Green实验室于2022年开发的SolProp模型。该模型通过预测一组相关性质,并利用热力学原理相结合,最终预测溶解度。然而,该模型在预测它以前从未见过的溶质的溶解度时存在困难。

Attia说:“对于正在开发新分子的药物和化学品研发流程,你希望能够提前预测出它的溶解度如何。”

现有溶解度模型效果不佳的部分原因是缺乏全面的训练数据集。直到2023年,一个名为BigSolDB的新数据集发布,它汇编了近800篇已发表论文中的数据,其中包括约800种分子溶解在合成化学中常用的100多种有机溶剂中的溶解度信息。

Attia和Burns决定使用该数据集训练两种不同类型的模型。这两种模型都使用被称为“嵌入”(embeddings)的数值表示来描述分子的化学结构,这些嵌入包含了诸如分子中的原子数以及哪些原子与哪些原子键合等信息。模型可以利用这些表示来预测各种化学性质。

本研究中使用的模型之一是FastProp,由Burns和其他Green实验室的成员开发,它采用了“静态嵌入”。这意味着在模型开始任何分析之前,每个分子的嵌入值就已经确定了。

另一种模型ChemProp则在训练过程中学习每个分子的嵌入,同时学习将嵌入的特征与溶解度等性状相关联。该模型已在多个MIT实验室中开发,并被用于抗生素发现、脂质纳米颗粒设计和预测化学反应速率等任务。

研究人员使用BigSolDB中超过40,000个数据点(包括对溶解度影响显著的温度信息)来训练这两种模型。然后,他们使用约1,000个未参与训练的溶质对模型进行测试。结果发现,这些模型的预测精度比上一个最佳模型SolProp高出两到三倍,并且新模型在预测由温度引起的溶解度变化方面尤其准确。

Burns表示:“能够准确地重现由温度引起的溶解度的小幅变化,即使实验噪声本身非常大,也给我们一个非常积极的信号,表明网络已经正确地学习了潜在的溶解度预测函数。”

准确的预测与数据的局限性

研究人员原本预计基于ChemProp的模型(该模型在运行时可以学习新的表示)会做出更准确的预测。然而,出乎意料的是,他们发现这两种模型的性能基本相同。研究人员认为,这表明它们性能的主要限制在于数据质量,并且基于现有数据,模型的性能已接近理论极限。

Burns说:“当有足够数据时,ChemProp应该总是优于任何静态嵌入模型。我们很惊讶地发现,在所有不同的数据子集中,静态嵌入和学习嵌入在性能上统计上没有区别,这表明该领域现有的数据限制主导了模型的性能。”

研究人员表示,如果能获得更好的训练和测试数据——理想情况下是经过统一实验方法和条件的人员所获取的数据——模型可能会变得更准确。

Attia解释说:“使用这类汇编数据集的一大限制是,不同的实验室在进行溶解度测试时使用不同的方法和实验条件。这造成了不同数据集之间的差异。”

由于基于FastProp的模型预测速度更快,且代码更容易被其他用户修改,研究人员决定将这个名为FastSolv的模型向公众发布。目前,多家制药公司已经开始使用它。

Burns表示:“它在整个药物发现流程中都有应用。我们也期待看到,在配方和药物发现之外,人们还会将该模型应用于哪些领域。”

这项研究得到了美国能源部的部分资助。

Two scientists, one in lab, and one building a unique bar graph.

图片说明:MIT化学工程师创建了一个计算模型,可以预测给定分子在有机溶剂中的溶解程度。

图片来源:研究人员提供;MIT News




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区