📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339906.html
原文作者:量子位
尽管近期Meta的审核规定给团队带来了不小的困扰,但Meta FAIR的研究科学家Yann LeCun(杨立昆)依然携最新研究成果问世!这次,他与三位FAIR同事合作,再次在人工智能领域投下重磅炸弹。
他们在新论文中发现,自监督学习模型JEPAs(联合嵌入预测架构)隐藏着一项惊人技能——它能够精准地学习数据的“密度”。
这里的“数据密度”可以理解为样本的常见程度:密度高的样本更具代表性、更常见;密度低的样本则相对罕见,甚至是异常数据。

JEPAs最初被认为是一种只擅长特征提取的模型。然而,LeCun团队的研究颠覆了这一认知——他们在模型训练过程中发现了它悄然掌握了感知数据常见程度的能力。
这意味着,一旦JEPAs训练成功,无需任何额外操作,模型就能用来判断一个样本的常见程度,彻底打破了学界长期以来“JEPAs仅学特征、与数据密度无关”的固有观念。
核心突破:反坍缩机制精准学习数据密度
要理解这项发现的突破性,我们首先回顾一下JEPAs。

作为LeCun团队近年来重点推进的自监督学习框架,JEPAs的核心优势在于无需人工标注,模型即可从海量数据中自主学习特征规律,并直接应用于图像识别、跨模态匹配等下游任务,是高效学习的典范。

以往,学界普遍认为JEPAs的训练目标仅有两个:
- 潜在空间预测 (Latent Space Prediction):确保对原始数据进行轻微扰动(如裁剪、调色)后,扰动后数据的特征表示能从原始数据特征中准确预测出来。
- 反坍缩 (Anti-collapse):防止所有样本的特征在潜在空间中趋于一致。
新发现正是源于对“反坍缩”机制的深入挖掘。
过去,反坍缩常被视为防止特征失效的保障手段,未被意识到它具有更深层次的作用。LeCun团队通过变量替换公式和高维统计特性的推导证明:反坍缩不仅能阻止特征坍缩,更能让JEPAs精准学习数据密度。
从理论上讲,当JEPAs输出高斯嵌入(特征在高维空间中近似均匀分布于超球面)时,模型必须通过雅可比矩阵(反映模型对样本微小变化的响应程度)来感知数据密度,才能满足训练时的约束条件。这表明,学习数据密度是JEPAs训练过程中的必然结果,而非偶然现象。

实用工具:JEPA-SCORE让密度感知落地
为了将这种隐藏的密度感知能力转化为实际应用,团队提出了关键工具JEPA-SCORE。
该工具旨在从JEPAs中提取量化的数据密度指标,其核心作用就是为样本的常见度打分。

根据公式,JEPA-SCORE的计算逻辑简洁高效:只需获取JEPAs处理目标样本时的雅可比矩阵,计算矩阵的特征值后取对数求和,即可得到分数。分数越高,代表样本越典型(数据密度高);分数越低,代表样本越罕见或异常(数据密度低)。
更令人兴奋的是,JEPA-SCORE具备极强的通用性,可以无限制适配,既不挑数据集,也不挑JEPAs架构。
- 无论是ImageNet、手写数字MNIST,还是从未参与预训练的陌生数据(如星云图集),它都能精准计算。
- 无论是I-JEPA、DINOv2(单模态视觉模型),还是MetaCLIP(多模态模型),只要是成功训练的JEPAs家族模型,都能直接使用,且无需额外训练。
实验验证:跨领域表现卓越
为验证这一发现的可靠性,团队进行了多组实验:
- 在ImageNet数据集中,不同JEPAs模型对典型样本(如飞行姿态的鸟类)和罕见样本(如栖息姿态的鸟类)的JEPA-SCORE判定高度一致,证实了这是JEPAs的共性能力。
- 面对未参与预训练的星系图像数据集,其JEPA-SCORE显著低于ImageNet数据,表明模型能精准识别陌生数据。

在数据筛选和异常检测的实用测试中,JEPA-SCORE的表现也优于传统方法:


研究团队介绍
这项开创性的研究并非LeCun一人完成,另外三位核心研究者也均是Meta FAIR的研究员。
Randall Balestriero是布朗大学计算机科学助理教授,专精于人工智能与深度学习。

他自2013年开始研究可学习信号处理,参与的技术曾用于NASA火星车火星地震探测。2021年获得莱斯大学博士学位后,在Yann LeCun指导下于Meta AI进行博士后研究。
Nicolas Ballas拥有法国格勒诺布尔大学博士学位。自2017年起,他已在FAIR担任研究科学家超过8年。
Michael Rabbat是FAIR的创始成员之一。他拥有伊利诺伊大学厄巴纳-香槟分校的工程学士学位、莱斯大学的工程硕士学位,以及威斯康星大学麦迪逊分校的电气工程博士学位。

Mike的研究方向聚焦于优化算法、分布式算法和信号处理三大领域。加入Meta前,他曾任麦吉尔大学电气与计算机工程系教授。
论文地址:https://arxiv.org/abs/2510.05949
— 完 —
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区