目 录CONTENT

文章目录

开创性训练方法:教会生成式AI模型定位个性化物体

Administrator
2025-10-16 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/method-teaches-generative-ai-models-locate-personalized-objects-1016

原文作者:Adam Zewe | MIT News


训练新方法助力生成式AI模型精准识别个性化物品

摘要:经过这种技术的训练后,视觉语言模型(VLM)能更好地在一组新场景中识别出独一无二的特定物品。

想象一下,您带着您的法国斗牛犬“鲍泽”(Bowser)去狗公园玩耍。您在现场很容易就能从其他犬只中认出鲍泽。

但是,如果您想在家工作时使用像 GPT-5 这样的生成式 AI 模型来监控您的宠物,该模型可能无法完成这个基本任务。像 GPT-5 这样的视觉语言模型(VLM)通常擅长识别通用物体(如“一只狗”),但在定位个性化物体(如“法国斗牛犬鲍泽”)方面表现不佳。

为了解决这一不足,来自麻省理工学院(MIT)和麻省理工学院-IBM 沃森人工智能实验室的研究人员提出了一种新的训练方法,旨在教会视觉语言模型在场景中定位个性化物体。

创新训练:关注上下文线索

他们的方法使用了精心准备的视频跟踪数据,其中同一个物体在多个帧中被连续追踪。研究人员设计该数据集的目的,是**迫使模型关注上下文线索来识别个性化物体**,而不是仅仅依赖其预先记忆的知识。

当给定几个展示个性化物体(如某人的宠物)的示例图像后,经过再训练的模型能够更好地在新图像中识别出同一宠物的具体位置。

使用他们方法再训练后的模型,在执行这项任务时,性能超越了当前最先进的系统。重要的是,他们的技术在提升特定任务能力的同时,**保持了模型其他通用能力的完好无损**。

“最终,我们希望这些模型能够像人类一样从上下文中学习。如果一个模型能很好地做到这一点,那么我们就不需要为每个新任务重新训练它,而是只需提供几个例子,它就能从上下文中推断出如何执行任务。这是一种非常强大的能力,”MIT 博士后、该技术论文的资深作者 Jehanzeb Mirza 说道。

Mirza 与来自魏茨曼科学研究所的 Sivan Doveh(共同第一作者)、IBM Research 的 Nimrod Shabtay(共同第一作者)、MIT 计算机科学与人工智能实验室(CSAIL)的语音语言系统组负责人 James Glass 等人共同发表了该论文。这项工作将在国际计算机视觉会议上展示。

意想不到的局限性

研究人员发现,大型语言模型(LLM)在从上下文学习方面表现出色。如果他们向 LLM 输入几个任务示例(例如加法题),它可以根据提供的上下文学习回答新的加法题。

VLM 本质上是一个带有视觉组件的 LLM,因此 MIT 的研究人员本以为它会继承 LLM 的上下文学习能力。但事实并非如此。

“研究界尚未就这个问题找到一个明确的答案。瓶颈可能源于在合并两个组件的过程中丢失了一些视觉信息,但我们尚不清楚具体原因,”Mirza 解释道。

研究人员着手改进 VLM 在“上下文定位”(即在新图像中找到特定物体)方面的能力。他们将重点放在用于对现有 VLM 进行新任务再训练(称为“微调”)的数据上。

典型的微调数据是从随机来源收集的,描绘了日常物体的集合。一张图片可能包含停在街上的汽车,而另一张可能包含一束鲜花。

“这些数据缺乏真正的连贯性,因此模型从未学会识别同一物体在多张图像中的一致性,”他说。

为了解决这个问题,研究人员通过整理现有的视频跟踪数据创建了一个新数据集。这些数据是展示同一物体在场景中移动的视频片段,例如一只老虎穿过草原。

他们从这些视频中截取帧,并组织数据集,使每个输入都包含多张展示同一物体在不同上下文中的图像,并附有关于其位置的示例问题和答案。

“通过使用同一物体在不同上下文中的多张图像,我们鼓励模型通过关注上下文来持续定位该目标物体,”Mirza 解释说。

强制聚焦:防止模型“作弊”

然而,研究人员发现 VLM 倾向于“作弊”。它们不会根据上下文线索作答,而是利用预训练期间获得的知识来识别物体。

例如,由于模型已经学习了老虎的图像和“老虎”标签是相关的,它可能会根据这种预训练知识识别出正在草原上穿越的老虎,而不是从上下文中推断。

为了解决这个问题,研究人员在数据集中使用了“伪名称”而不是实际的物体类别名称。在这种情况下,他们将老虎的名字改成了“Charlie”。

“我们花了一段时间才弄清楚如何阻止模型作弊。但我们改变了游戏的规则。模型并不知道‘Charlie’可以是一只老虎,所以它被迫查看上下文,”他说。

研究人员在数据准备方面也遇到了挑战。如果截取的视频帧距离太近,背景变化不足以提供足够的数据多样性。

最终,使用这个新数据集对 VLM 进行微调,使个性化定位的准确率平均提高了约 12%。当他们使用带有伪名称的数据集时,性能提升达到了 21%。

随着模型规模的增加,这项技术的性能提升效果更为显著。

未来,研究人员希望探究 VLM 无法从其基础 LLM 继承上下文学习能力的原因。此外,他们还计划探索其他机制,以便在无需使用新数据重新训练的情况下提高 VLM 的性能。

未参与这项工作的 Mila-Quebec 人工智能研究所的博士后 Saurav Jha 评论道:“这项工作将“少样本个性化物体定位”(即在没有微调的情况下,即时适应同一物体跨越新场景的能力)重新定义为一项指令调优问题,并利用视频跟踪序列来教导 VLM 基于视觉上下文而不是类别先验进行定位。它还为这种设置引入了第一个基准,并在开源和专有 VLM 上实现了扎实的性能提升。鉴于快速、实例特定的定位对于现实世界工作流程(如机器人、增强现实助手、创意工具等)用户的巨大意义,这项工作提供的以数据为中心、实用的方法可以帮助增强视觉语言基础模型的广泛采用。”

其他合著者包括约翰内斯·开普勒大学的研究助理 Wei Lin;IBM Research 的研究科学家 Eli Schwartz;图宾根人工智能中心计算机科学教授兼麻省理工学院-IBM 沃森人工智能实验室的附属教授 Hilde Kuehne;特拉维夫大学的副教授 Raja Giryes;麻省理工学院-IBM 沃森人工智能实验室的首席科学家兼经理 Rogerio Feris;IBM Research 的首席研究科学家 Leonid Karlinsky;IBM Research 的高级研究科学家 Assaf Arbelle;以及魏茨曼科学研究所的 Samy and Ruth Cohn 计算机科学教授 Shimon Ullman。

该研究部分由麻省理工学院-IBM 沃森人工智能实验室资助。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区