目 录CONTENT

文章目录

新算法实现对称数据的高效机器学习:为药物和材料发现增强AI模型

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/new-algorithms-enable-efficient-machine-learning-with-symmetric-data-0730

原文作者:Adam Zewe | MIT News


新算法实现对称数据的高效机器学习:为药物和材料发现增强AI模型

这项新方法有望增强用于药物和材料发现的AI模型。

A neural network over complicated mathematical figures

图注:麻省理工学院(MIT)研究人员的一项新研究展示了第一个在计算量和所需数据量方面都得到证明的对称性机器学习方法。

鸣谢:iStock, MIT News

如果你旋转一张分子结构的图像,人类可以分辨出旋转后的图像仍然是同一个分子,但机器学习模型可能会认为它是一个新的数据点。用计算机科学的术语来说,这个分子是“对称的”,意味着如果它进行某些变换(如旋转),其基本结构保持不变。

如果一个药物发现模型不理解对称性,它可能会对分子特性做出不准确的预测。尽管在经验上取得了一些成功,但一直不清楚是否存在一种计算高效的方法来训练一个能保证尊重对称性的良好模型。

麻省理工学院研究人员的一项新研究回答了这个问题,并展示了第一个在计算量和所需数据量方面都得到证明的对称性机器学习方法。

这些结果阐明了一个基础性问题,并可能有助于研究人员开发出更强大的机器学习模型,这些模型被设计用于处理对称性。这类模型在各种应用中都很有用,从发现新材料到识别天文异常现象,再到揭示复杂的气候模式。

“这些对称性很重要,因为它们是自然界告诉我们关于数据的某种信息,我们应该在机器学习模型中加以考虑。我们现在已经证明,有可能以高效的方式对对称数据进行机器学习,”该研究的联合主要作者、麻省理工学院研究生 Behrooz Tahmasebi 说。

与他一同发表论文的还有另一位联合主要作者、麻省理工学院研究生 Ashkan Soleymani;电气工程与计算机科学(EECS)副教授、数据、系统与社会学会(IDSS)和计算机科学与人工智能实验室(CSAIL)成员 Stefanie Jegelka;以及资深作者、电气工程与计算机科学领域的 Dugald C. Jackson 教授、信息与决策系统实验室(LIDS)的首席研究员 Patrick Jaillet。这项研究最近在国际机器学习会议(International Conference on Machine Learning)上发表。

深入研究对称性

对称数据在许多领域都有出现,尤其是在自然科学和物理学中。一个能识别对称性的模型可以识别一个物体,比如一辆汽车,无论该物体在图像中处于什么位置。

除非机器学习模型在设计上能够处理对称性,否则在现实世界情况下遇到新的对称数据时,它的准确性可能会降低,并且容易出现故障。反之,利用对称性的模型在训练时可能更快,所需数据更少。

但是,训练一个能处理对称数据的模型并非易事。

一种常见的方法称为数据增强,研究人员将每个对称数据点转换成多个数据点,以帮助模型更好地泛化到新数据。例如,可以多次旋转一个分子结构以产生新的训练数据,但如果研究人员希望模型保证尊重对称性,这在计算上可能是难办的。

另一种方法是将对称性编码到模型的架构中。一个著名的例子是图神经网络(GNN),由于其设计方式,它固有地处理对称数据。

“图神经网络速度快、效率高,而且能很好地处理对称性,但没有人真正知道这些模型学到了什么,或者它们为什么有效。理解 GNN 是我们工作的核心动机之一,所以我们从理论上评估了当数据对称时会发生什么,”Tahmasebi 说。

他们探索了对称性机器学习中的统计-计算权衡。这种权衡意味着需要较少数据的方法计算成本可能更高,因此研究人员需要在两者之间找到适当的平衡点。

在这一理论评估的基础上,研究人员设计了一种处理对称性数据的有效算法。

数学组合

为了实现这一点,他们借鉴了代数中的思想来缩小和简化问题。然后,他们利用几何学中的思想重新构建了问题,这些思想有效地捕捉了对称性。

最后,他们将代数和几何学结合成一个可以有效求解的优化问题,从而得到了他们的新算法。

“大多数理论和应用都集中在代数或几何上。我们在这里只是将它们结合起来,”Tahmasebi 说。

该算法所需的训练数据样本比经典方法少,这将提高模型的准确性及其适应新应用的能力。

通过证明科学家可以开发出处理对称性的有效算法,并展示如何实现这一点,这些结果可能有助于开发出比当前模型更准确、资源消耗更少的新型神经网络架构。

科学家们还可以利用此分析作为起点,研究 GNN 的内部工作原理,以及它们的操作与麻省理工学院研究人员开发的算法有何不同。

“一旦我们对此有了更好的了解,我们就可以设计出更具可解释性、更稳健、更高效的神经网络架构,”Soleymani 补充道。

这项研究的部分资金来自新加坡国家研究基金会、新加坡 DSO 国防科技局、美国海军研究办公室、美国国家科学基金会以及亚历山大·冯·洪堡讲座基金。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区