目 录CONTENT

文章目录

大语言模型能否真正理解真实世界?研究发现:目前看来,它们还差得远

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/can-large-language-models-figure-out-real-world-0825

原文作者:David Chandler | Laboratory for Information and Decision Systems


图:研究人员在麻省理工学院和哈佛大学设计了一种新的方法,用于评估预测性人工智能系统对其主题的理解深度,以及它们是否能将一个领域的知识应用到略有不同的领域。

预测能力VS世界模型:AI理解力的终极拷问

早在17世纪,德国天文学家约翰内斯·开普勒就发现了运动定律,使他能够准确预测太阳系中行星在天空中的位置。然而,直到几十年后艾萨克·牛顿提出万有引力定律,这些定律背后的基本原理才真正被理解。牛顿的定律虽然受到开普勒定律的启发,但其影响远不止于此,它使得同样的公式可以应用于从炮弹的轨迹到月球引力控制地球潮汐,乃至如何从地球发射卫星到达月球或行星的表面。

当今复杂的AI系统在进行特定预测方面已经做得非常出色,这些预测类似于开普勒的轨道预测。但是,它们是否理解这些预测背后的原因,是否具备牛顿定律那样的深层理解呢?随着世界对这类AI系统的依赖日益加深,研究人员正努力衡量它们究竟是如何工作的,以及它们对真实世界的理解深度究竟有多深。

麻省理工与哈佛的新研究揭示AI的局限性

麻省理工学院信息与决策系统实验室(LIDS)和哈佛大学的研究人员设计了一种新的方法,用于评估这些预测系统对其主题的理解深度,以及它们能否将一个领域的知识应用到略有不同的领域。研究结果表明,在他们研究的例子中,答案基本上是——还差得远

该研究的主要作者、哈佛大学博士后Keyon Vafa上个月在温哥华举行的国际机器学习会议(ICML)上介绍了这些研究成果。其他研究人员包括麻省理工学院电子工程与计算机科学研究生、LIDS附属研究员Peter G. Chang,麻省理工学院助理教授、LIDS首席研究员Ashesh Rambachan,以及麻省理工学院教授、LIDS首席研究员兼资深作者Sendhil Mullainathan。

Vafa说:“人类一直能够完成从良好预测到世界模型的转变。”因此,他们团队要解决的问题是:“基础模型——即AI——是否已经完成了从预测到世界模型的飞跃?我们不是在问它们是否有能力、能不能做到,或者未来会不会做到,而只是想知道它们到目前为止是否做到了?

资深作者Mullainathan教授(在麻省理工学院经济学和电气工程与计算机科学系双聘)说:“我们知道如何测试算法是否能做出好的预测。但我们需要一种方法来测试它是否理解得好。即使是定义‘理解’的含义也是一个挑战。”

从开普勒到牛顿:泛化能力的鸿沟

在开普勒与牛顿的类比中,Vafa解释道:“他们都拥有在特定任务上表现出色的模型,并且在该任务上以基本相同的方式工作。牛顿提供的是能够推广到新任务的思路。”当这种能力应用于各种AI系统的预测时,就意味着AI需要建立一个世界模型,以便能够“超越当前正在处理的任务,并能泛化到新的问题和范式。”

另一个有助于说明这个观点的类比是,几个世纪以来人类积累的关于如何选择性地培育作物和动物的知识,与格雷戈尔·孟德尔对遗传继承基本定律的洞察之间的区别。

Mullainathan教授指出,人们对利用基础模型进行科学发现(例如预测从未被创造出的化学物质、潜在药物化合物或未知蛋白质分子的折叠行为和性质)感到非常兴奋。“为了适应任何可能的任务,它需要拥有一个世界模型来进行适应。”

“归纳偏见”度量标准:测试AI的真实世界映射能力

AI系统是否接近具备这种泛化能力?为了检验这个问题,团队研究了不同复杂程度的各种预测性AI系统。在**最简单的例子中,系统成功地创建了模拟系统的逼真模型;但随着例子变得越来越复杂,这种能力迅速减弱。**

团队开发了一个新的度量标准,一种量化衡量系统如何精确地近似现实世界条件的方法。他们称之为归纳偏见——即根据对大量特定案例数据的推断,倾向于产生反映现实的响应。

简单的格子模型与复杂的奥赛罗棋局

他们研究的最简单的例子被称为格子模型(lattice model)。在一个一维格子中,物体只能沿着一条线移动。Vafa将其比作一只在并排的荷叶之间跳跃的青蛙。青蛙跳跃或停留时,会叫出它的动作——向右、向左或停留。如果到达最后一排荷叶,它只能停留或后退。如果有人或AI系统只能听到这些叫声,而不知道荷叶的数量,它能推断出配置吗?答案是肯定的:预测模型在重建这种简单“世界”方面做得很好。但是,即使是格子模型,**当增加维度时,系统也无法做出这种飞跃。**

Chang表示:“例如,在两态或三态格子中,我们表明该模型对实际状态具有相当好的归纳偏见。但是,随着我们增加状态的数量,它就开始与真实世界模型出现偏差。”

一个更复杂的问题是下奥赛罗(Othello)棋盘游戏的系统。AI模型可以准确预测在给定时刻哪些走法是允许的,但结果是,它们在推断棋盘上整体的棋子布局方面表现不佳,包括那些当前无法移动的棋子。

展望未来:迈向更深层次的理解

团队随后考察了五种实际使用的预测模型类别,结果同样是:**系统越复杂,预测模型与真实世界模型匹配的表现就越差。**

Vafa表示,有了这个新的“归纳偏见”度量标准,“我们的希望是提供一个试验台,可以在我们已知真实世界模型是什么的问题上,评估不同的模型和不同的训练方法。”如果模型在这些已知真实性的案例上表现良好,那么我们就可以更有信心地认为,即使在“我们不真正知道真相”的情况下,它的预测也可能是有用的。

人们已经在尝试使用这类预测性AI系统来辅助科学发现,包括预测从未被创造出的化学化合物的性质、潜在的药物化合物,或未知蛋白质分子的折叠行为和性质。“对于更现实的问题,”Vafa说,“即使是像基础力学这样的问题,我们也发现还有很长的路要走。”

Chang指出:“基础模型引发了很多炒作,人们试图构建特定领域的模型——基于生物学的、基于物理学的、基于机器人的基础模型,以及针对其他拥有大量数据的领域的模型”,并期望它们能获得该领域的知识,用于下游任务。“这项工作表明,要达到这种水平还有很长的路要走,但它也为前进指明了方向。”

Chang总结道:“我们的论文表明,我们可以应用我们的指标来评估表征学习了多少内容,以便我们可以想出更好的基础模型训练方法,或者至少评估我们目前正在训练的模型。作为一个工程领域,一旦我们有了某个东西的度量标准,人们就非常非常擅长优化这个度量标准。”

论文链接:“基础模型发现了什么:使用归纳偏见探测世界模型”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区