📢 转载信息
原文链接:https://www.wired.com/story/how-one-ai-model-creates-a-physical-intuition-of-its-environment/
原文作者:Anil Ananthaswamy
该故事的原始版本发表在Quanta Magazine。
这里有一个针对婴儿的测试:给他们看桌子上的一杯水。用一块木板把它藏起来。现在,把木板朝玻璃杯移动。如果木板继续前行,好像玻璃杯不存在一样,他们会感到惊讶吗?许多6个月大的婴儿会感到惊讶,而到一岁时,几乎所有孩子都对物体的永存性有直觉概念,这是通过观察学习得来的。现在,一些人工智能模型也做到了。
研究人员开发了一个人工智能系统,它通过视频学习关于世界的信息,并在呈现与它所学知识相悖的信息时,表现出一种“惊讶”的概念。
这个由Meta创建、名为视频联合嵌入预测架构(V-JEPA)的模型,在训练时不对视频中包含的物理知识做任何假设。尽管如此,它仍能开始理解世界是如何运作的。
研究世界如何运作的大脑和人工智能系统的认知科学家、阿姆斯特丹大学的Micha Heilbron说:“他们的说法,先验来看,是非常合理的,而且结果非常有趣。”
更高级的抽象
正如开发自动驾驶汽车的工程师所知,要让一个人工智能系统可靠地理解它所看到的东西是很有挑战性的。大多数旨在“理解”视频以对其内容进行分类(例如,“一个人在打网球”)或识别物体轮廓(例如,前方的汽车)的系统,都工作在所谓的“像素空间”中。该模型基本上将视频中的每个像素视为同等重要。
但这些像素空间模型存在局限性。想象一下试图理解一条郊区街道。如果场景中有汽车、交通信号灯和树木,模型可能会过度关注不相关的细节,比如树叶的运动。它可能会忽略交通信号灯的颜色,或附近汽车的位置。布朗大学的计算机科学家Randall Balestriero说:“当你处理图像或视频时,你不想在[像素]空间中工作,因为有太多你不想建模的细节。”

Yann LeCun,纽约大学计算机科学家兼Meta人工智能研究总监,于2022年创建了JEPA,即V-JEPA的前身,该模型处理静态图像。
Photograph: École Polytechnique Université Paris-Saclay2024年发布的V-JEPA架构旨在避免这些问题。虽然构成V-JEPA的各种人工神经网络的具体细节很复杂,但基本概念很简单。
普通的像素空间系统会经历一个训练过程,涉及到屏蔽视频帧中的某些像素,并训练神经网络来预测这些被屏蔽像素的值。V-JEPA也会屏蔽视频帧的某些部分。但它不会在单个像素层面预测被屏蔽区域后面的内容。相反,它使用更高级别的抽象,即“潜在”表征,来对内容进行建模。
潜在表征只捕获数据的基本细节。例如,给定各种圆柱体的线条图,一个名为“编码器”的神经网络可以学会将每张图像转换为代表圆柱体基本特征的数字,如其高度、宽度、方向和位置。通过这样做,数百或数千个像素中包含的信息被转换成少数几个数字——即潜在表征。一个名为“解码器”的独立神经网络随后学会将圆柱体的基本细节转换回圆柱体的图像。
V-JEPA专注于创建和再现潜在表征。从宏观上看,该架构分为三个部分:编码器1、编码器2和一个预测器。首先,训练算法获取一组视频帧,在所有帧中屏蔽相同的像素集,并将这些帧输入到编码器1中。有时,视频的最后几帧会被完全屏蔽。编码器1将这些被屏蔽的帧转换为潜在表征。该算法还将未被屏蔽的完整帧输入到编码器2中,编码器2将其转换为另一组潜在表征。
现在预测器开始发挥作用。它使用编码器1产生的潜在表征来预测编码器2的输出。从本质上讲,它获取由被屏蔽帧生成的潜在表征,并预测由未被屏蔽帧生成的潜在表征。通过重新创建相关的潜在表征,而不是像早期系统那样重建丢失的像素,该模型学会了识别道路上的汽车,而不会纠结于树上的叶子。
Meta的研究科学家Quentin Garrido说:“这使得模型能够丢弃不必要的……信息,而专注于视频中更重要的方面。‘丢弃不必要的信息’非常重要,这也是V-JEPA旨在高效完成的任务。”
完成此预训练阶段后,下一步是根据特定任务(如分类图像或识别视频中描绘的动作)来定制V-JEPA。这种适应阶段需要一些人工标记的数据。例如,视频需要根据其中包含的动作进行标记。与对整个系统进行端到端训练以完成特定下游任务相比,最终任务的适应所需标记数据要少得多。此外,相同的编码器和预测器网络可以适应不同的任务。
直觉模仿
今年2月,V-JEPA团队报告了他们的系统在理解现实世界的直觉物理特性方面的表现——这些特性包括物体永存性、形状和颜色的恒定性,以及重力和碰撞的影响。在一个名为IntPhys的测试中,该测试要求AI模型识别视频中发生的动作是物理上合理的还是不合理的,V-JEPA的准确率接近98%。一个著名的在像素空间中进行预测的模型,其表现仅略好于随机猜测。

自主机器人需要某种物理直觉才能规划其运动并与物理环境互动。
Photograph: Wladimir Bulgar/Science Photo LibraryV-JEPA团队还明确量化了当其预测与观测不符时所表现出的“惊讶”程度。他们对一个使用自然视频进行预训练的V-JEPA模型进行了新的视频输入,然后用数学方法计算出V-JEPA期望在视频未来帧中看到的内容与实际发生情况之间的差异。团队发现,当未来帧包含物理上不可能发生的事件时,预测误差会激增。例如,如果一个球滚过一个遮挡物并暂时消失,当球没有从遮挡物后面重新出现时,模型会产生一个误差。这种反应类似于婴儿所表现出的直觉反应。可以说,V-JEPA感到“惊讶”了。
Heilbron对V-JEPA的能力印象深刻。“我们从发育文献中知道,婴儿不需要太多接触就能学习到这类直觉物理知识,”他说。“令人信服的是,他们证明了这种学习是可能的,而且你不需要带入所有先天的固有概念。”
伦敦大学学院的计算神经科学家Karl Friston认为,V-JEPA在模仿“我们大脑学习和模拟世界的方式”方面走在正确的道路上。然而,它仍然缺少一些基本要素。“当前提议中缺少的是对不确定性的适当编码,”他说。例如,如果过去帧中的信息不足以准确预测未来帧,那么预测就是不确定的,而V-JEPA没有量化这种不确定性。
6月,Meta的V-JEPA团队发布了他们的下一代拥有12亿参数的模型V-JEPA 2,该模型在2200万个视频上进行了预训练。他们还将该模型应用于机器人技术:他们展示了如何仅使用大约60小时的机器人数据(包括机器人视频及其动作信息)来进一步微调一个新的预测器网络,然后使用微调后的模型来规划机器人的下一个动作。Garrido说:“这样的模型可用于解决简单的机器人操作任务,并为该方向的未来工作铺平道路。”
为了推动V-JEPA 2的发展,团队设计了一个更困难的直觉物理理解基准测试,名为IntPhys 2。V-JEPA 2和其他模型在这些更难的测试中只比随机猜测稍好一点。Garrido解释说,原因之一是V-JEPA 2只能处理大约几秒钟的视频作为输入,并预测未来几秒钟的内容。任何更长的内容都会被遗忘。你可以再次将其与婴儿进行比较,但Garrido想到了另一种生物。“从某种意义上说,该模型的记忆让人想起一条金鱼,”他说。
原文经《纽约客》独家许可转载,Quanta Magazine是一家独立的出版物,隶属于西蒙斯基金会,其使命是通过报道数学、物理和生命科学领域的研究发展和趋势,来增强公众对科学的理解。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区