目 录CONTENT

文章目录

面向多图像推理,我们准备好了吗?推出视觉干草堆(VHs)基准测试!

Administrator
2025-10-13 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2024/07/20/visual-haystacks/

原文作者:Tsung-Han (Patrick) Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan


面向多图像推理,我们准备好了吗?推出视觉干草堆(VHs)基准测试!

人类擅长处理大量的视觉信息,这是实现人工通用智能(AGI)的关键技能。几十年来,人工智能研究人员开发了视觉问答(VQA)系统,用于解释单个图像中的场景并回答相关问题。虽然基础模型(Foundation Models)的最新进展大大缩小了人类与机器视觉处理之间的差距,但传统的VQA仅限于一次处理单个图像,而非处理整个视觉数据集合。

这种局限性在更复杂的场景中带来了挑战。例如,在医学图像集合中辨别模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化地图、分析大型艺术收藏品的主题元素,或从零售监控录像中了解消费者行为。这些场景不仅需要跨数百甚至数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了解决这一差距,本项目专注于“多图像问答”(MIQA)任务,这超出了传统VQA系统的能力范围。


视觉干草堆(Visual Haystacks):首个“以视觉为中心”的“大海捞针”(NIAH)基准测试,旨在严格评估大型多模态模型(LMMs)处理长上下文视觉信息的能力。

如何对MIQA任务中的VQA模型进行基准测试?

“大海捞针”(Needle-In-A-Haystack, NIAH)挑战已成为衡量大型语言模型(LLM)处理包含“长上下文”的大量输入数据(如长文档、视频或数百张图像)能力的最流行范式之一。在此任务中,包含特定问题答案的关键信息(“针”)被嵌入到海量数据(“干草堆”)中。系统必须检索相关信息并正确回答问题。

第一个用于视觉推理的NIAH基准测试由谷歌在其Gemini-v1.5 技术报告中引入。在该报告中,他们要求模型从大量视频的一个帧中检索叠加的文本。事实证明,现有模型在此任务上表现良好——主要是由于它们强大的OCR检索能力。但如果我们提出更多视觉问题呢?模型是否仍然表现出色?

什么是视觉干草堆(VHs)基准测试?

为了评估“以视觉为中心”的长上下文推理能力,我们引入了“视觉干草堆(VHs)”基准测试。这个新基准旨在评估大型多模态模型(LMMs)在大型不相关图像集上的视觉检索推理能力。VHs包含大约1K个二元问答对,每个集合包含1到10K张图像。与以往侧重于文本检索和推理的基准测试不同,VHs的问题集中于识别特定视觉内容(如物体)的存在,利用COCO数据集中的图像和注释。

VHs基准测试分为两个主要挑战,每个挑战都旨在测试模型在响应查询之前准确查找和分析相关图像的能力。我们精心设计了数据集,以确保仅仅猜测或依赖常识推理而无需查看图像不会带来优势(即在二元QA任务中达到50%的准确率)。

  • 单针挑战(Single-Needle Challenge):干草堆中只存在一个“针”图像。问题构成为:“对于带有锚定物体的图像,是否存在目标物体?”

  • 多针挑战(Multi-Needle Challenge):干草堆中存在两到五个“针”图像。问题构成为:“对于所有带有锚定物体的图像,它们是否都包含目标物体?”或“对于所有带有锚定物体的图像,它们中是否有任何一个包含目标物体?”

VHs揭示的三个重要发现

视觉干草堆(VHs)基准测试揭示了当前大型多模态模型(LMMs)在处理大量视觉输入时面临的重大挑战。在我们的实验1中,我们评估了包括LLaVA-v1.5GPT-4oClaude-3 OpusGemini-v1.5-pro在内的多个开源和专有模型,涵盖单针和多针模式。此外,我们加入了一个“字幕生成”(Captioning)基线,采用两阶段方法:首先使用LLaVA为图像生成字幕,然后使用Llama3根据字幕文本内容回答问题。

  1. 在视觉干扰物面前的挣扎

    在单针设置中,随着图像数量的增加,性能明显下降,尽管预言机准确率(oracle accuracy)很高——这在先前的基于文本的Gemini风格基准测试中并未出现。这表明现有模型可能主要在视觉检索方面遇到困难,尤其是在存在棘手的视觉干扰物时。此外,必须强调开源LMM(如LLaVA)的局限性,由于2K的上下文长度限制,它们最多只能处理三张图像。另一方面,像Gemini-v1.5和GPT-4o这样的专有模型,尽管声称具有扩展的上下文能力,但在图像数量超过1K时,由于API调用时的有效载荷大小限制,往往无法处理请求。


    VHs单针问题性能。随着“干草堆”大小(N)的增加,所有模型的性能都大幅下降,表明它们对视觉干扰物缺乏鲁棒性。E:超出上下文长度。

  2. 跨多图像推理的困难

    有趣的是,与基础的“字幕生成+LLM聚合”方法(LLaVA+Llama3)相比,所有基于LMM的方法在5张以上图像的单图像QA和所有多针设置中表现都很弱。这表明,虽然LLM能够有效地整合长上下文字幕,但现有的LMM解决方案不足以处理和整合跨多图像的信息。值得注意的是,在多图像场景中,性能急剧恶化,Claude-3 Opus在仅有“预言机图像”的情况下表现不佳,而Gemini-1.5/GPT-4o在更大的50张图像集合中准确率下降到50%(与随机猜测相当)。


    VHs多针问题结果。所有具备视觉感知能力(visually-aware)的模型表现都很差,表明模型难以隐式地整合视觉信息。

  3. 视觉领域的“中间丢失”现象

    最后,我们发现LMM的准确性在很大程度上受到“针”图像在输入序列中的位置的影响。例如,当“针”图像紧接在问题之前时,LLaVA表现更好,否则性能下降高达26.5%。相比之下,专有模型通常在图像位于开头时表现更好,当不在开头时,性能下降高达28.5%。这一模式与自然语言处理(NLP)领域中看到的“中间丢失”(lost-in-the-middle)现象相呼应,即信息位于上下文的开头或结尾会影响模型的性能。先前的Gemini风格NIAH评估中没有发现此问题,因为它仅需要文本检索和推理,这突显了我们VHs基准测试带来的独特挑战。


    不同图像设置下,针的位置与VHs性能的关系。当“针”位置不理想时,现有LMMs性能下降高达41%。灰色框:超出上下文长度。

MIRAGE:基于RAG的解决方案,用于改进VHs性能

基于上述实验结果,很明显,现有MIQA解决方案的核心挑战在于(1)在海量潜在不相关图像中准确检索相关图像而没有位置偏差的能力,以及(2)从这些图像中整合相关视觉信息以正确回答问题的能力。为解决这些问题,我们提出了一种开源且简单的单阶段训练范式——“MIRAGE”(多图像检索增强生成),它扩展了LLaVA模型以处理MIQA任务。下图展示了我们的模型架构。

MIRAGE

我们提出的范式包含几个组件,每个组件旨在缓解MIQA任务中的关键问题:

  1. 压缩现有编码:MIRAGE范式利用一个查询感知的压缩模型,将视觉编码器标记(tokens)减少到更小的子集(小10倍),从而在相同的上下文长度内容纳更多的图像。

  2. 采用检索器过滤掉无关信息:MIRAGE使用一个与LLM微调同步训练的检索器,来预测图像是否相关,并动态丢弃不相关的图像。

  3. 多图像训练数据:MIRAGE用多图像推理数据和合成的多图像推理数据来增强现有的单图像指令微调数据。

结果

我们使用MIRAGE重新审视VHs基准测试。尽管具有较弱的单图像QA基础模型(每张图像仅32个标记),MIRAGE在处理1K或10K图像的能力之外,在大多数单针任务上实现了最先进的性能!

VHs_with_MIRAGE

我们还在各种VQA任务上对MIRAGE和其他LMM模型进行了基准测试。在多图像任务上,MIRAGE展示了强大的召回率和精度能力,显著优于GPT-4、Gemini-v1.5和大型世界模型(LWM)等强大竞争对手。此外,它在单图像QA性能上也具有竞争力。

VQA evaluation results

最后,我们将MIRAGE的共训练检索器与CLIP进行了比较。我们的检索器在不损失效率的情况下,性能明显优于CLIP。这表明,虽然CLIP模型可以作为开放词汇图像检索的良好检索器,但它们在处理类问题文本时可能表现不佳!

Ablation Studies

总结

在这项工作中,我们开发了视觉干草堆(VHs)基准测试,并确定了现有大型多模态模型(LMMs)存在的三个普遍缺陷:

  1. 在视觉干扰物面前的挣扎:在单针任务中,随着图像数量的增加,LMMs的性能急剧下降,表明在过滤无关视觉信息方面存在重大挑战。

  2. 跨多图像推理的困难:在多针设置中,简单的“字幕生成后跟基于语言的QA”方法优于所有现有的LMMs,凸显了LMMs处理跨多图像信息的能力不足。

  3. 视觉领域的现象:专有模型和开源模型都对“针”信息在图像序列中的位置敏感,在视觉领域表现出“中间丢失”现象。

为此,我们提出了MIRAGE,这是一个开创性的视觉检索增强生成器(视觉-RAG)框架。MIRAGE通过创新的视觉令牌压缩器、共训练的检索器以及增强的多图像指令微调数据来应对这些挑战。

在探索完这篇博客文章后,我们鼓励所有未来的LMM项目使用视觉干草堆框架对模型进行基准测试,以便在部署前识别并纠正潜在的缺陷。我们还敦促社区探索多图像问答作为推进真正人工通用智能(AGI)前沿的一种手段。

最后,请查看我们的项目页面Arxiv论文,并点击我们的GitHub仓库上的星标按钮!

@article{wu2024visual, title={Visual Haystacks: Answering Harder Questions About Sets of Images}, author={Wu, Tsung-Han and Biamby, Giscard and and Quenum, Jerome and Gupta, Ritwik and Gonzalez, Joseph E and Darrell, Trevor and Chan, David M}, journal={arXiv preprint arXiv:2407.13766}, year={2024}
}
  1. 所有这些实验都是在四月和五月进行的,从那时起,我们观察到一些专有模型(如Gemini)有所改进。 




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区