“视觉干草堆”：首个视觉导向的多图问答基准测试，评估大型多模态模型在长上下文视觉信息处理能力-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2024/07/20/visual-haystacks/

原文作者：Berkeley AI Research

人类在处理海量视觉信息方面表现出色，这对于实现通用人工智能（AGI）至关重要。几十年来，人工智能研究人员开发了视觉问答（VQA）系统来解释单个图像中的场景并回答相关问题。尽管基础模型最近的进步已显著缩小了人机视觉处理的差距，但传统的VQA仅限于一次推理单个图像，而不是整个视觉数据集合。

这一限制在更复杂的场景中带来了挑战。例如，在医学图像集合中辨别模式、通过卫星图像监测森林砍伐、使用自主导航数据绘制城市变化图、分析大量艺术品集合中的主题元素，或从零售监控录像中理解消费者行为。每种场景不仅需要跨越数百或数千张图像的视觉处理，还需要对这些发现进行跨图像处理。为了弥补这一差距，本项目专注于“多图问答”（MIQA）任务，该任务超出了传统VQA系统的能力范围。

Visual Haystacks
视觉干草堆：首个“视觉中心”的“干草堆找针”（NIAH）基准测试，旨在严格评估大型多模态模型（LMMs）在处理长上下文视觉信息方面的能力。

如何对MIQA中的VQA模型进行基准测试？

“干草堆找针”（NIAH）挑战已成为基准测试LLM处理包含“长上下文”（大量输入数据，如长文档、视频或数百张图像）能力的最流行范式之一。在此任务中，包含特定问题答案的关键信息（“针”）嵌入在海量数据（“干草堆”）中。系统必须检索相关信息并正确回答问题。

视觉推理的首个NIAH基准测试由Google在Gemini-v1.5 技术报告中提出。在该报告中，他们要求模型检索嵌入在大型视频单帧中的文本。事实证明，现有模型在此任务上表现相当不错——主要是由于它们强大的OCR检索能力。但如果我们提出更多视觉问题呢？模型是否仍然表现如此出色？

什么是视觉干草堆（VHs）基准测试？

为了评估“视觉中心”的长上下文推理能力，我们引入了“视觉干草堆（VHs）”基准测试。这个新基准测试旨在评估大型多模态模型（LMMs）在大型不相关图像集上的视觉检索和推理能力。VHs包含约1K个二元问答对，每个集合包含1到10K张图像。与以往专注于文本检索和推理的基准测试不同，VHs的问题侧重于识别特定视觉内容（如物体）的存在，使用了COCO数据集的图像和标注。

VHs基准测试分为两个主要挑战，每个挑战旨在测试模型在响应查询之前准确定位和分析相关图像的能力。我们精心设计了数据集，确保仅凭猜测或常识推理而无需查看图像无法获得优势（即在二元QA任务上获得50%的准确率）。

单针挑战：干草堆图像中只有一个针图像。问题形式为：“对于带有锚定对象的图像，是否存在目标对象？”
多针挑战：干草堆图像中有两个到五个针图像。问题形式为：“对于所有带有锚定对象的图像，它们是否都包含目标对象？”或“对于所有带有锚定对象的图像，它们中是否有任何一个包含目标对象？”

来自VHs的三个重要发现

视觉干草堆（VHs）基准测试揭示了当前大型多模态模型（LMMs）在处理大量视觉输入时面临的重大挑战。在我们的实验¹中，我们评估了多种开源和专有方法，包括 LLaVA-v1.5、GPT-4o、Claude-3 Opus 和 Gemini-v1.5-pro，涵盖单针和多针模式。此外，我们还包含了一个“字幕”基线，采用两阶段方法：首先使用LLaVA为图像生成字幕，然后使用字幕的文本内容与 Llama3 来回答问题。以下是三个关键见解：

在视觉干扰下挣扎

在单针设置中，尽管保持了较高的“神谕”准确率，但随着图像数量的增加，性能明显下降——这与之前基于文本的Gemini风格基准测试的情况不同。这表明现有模型可能主要在视觉检索方面遇到困难，尤其是在存在具有挑战性的视觉干扰时。此外，必须强调开源LMM（如LLaVA）的局限性，由于2K的上下文长度限制，它们最多只能处理三张图像。另一方面，像Gemini-v1.5和GPT-4o这样的专有模型，尽管声称具有扩展的上下文能力，但由于API调用的有效负载大小限制，在图像数量超过1K时经常无法处理请求。

VHs单针问题性能。所有模型在干草堆大小（N）增加时性能均显著下降，表明没有模型能有效抵御视觉干扰。E：超出上下文长度。
跨多图推理困难

有趣的是，与将字幕模型（LLaVA）与LLM聚合器（Llama3）链接的基本方法相比，所有基于LMM的方法在单图QA和所有多针设置中，当图像数量为5+时，表现都较弱。这种差异表明，虽然LLM能够有效地整合长上下文字幕，但现有的基于LMM的解决方案不足以处理和整合多张图像的信息。值得注意的是，在多图场景中，性能急剧下降，Claude-3 Opus在仅有神谕图像的情况下表现疲软，而Gemini-1.5/GPT-4o在50张图像的大数据集上准确率下降到50%（如同随机猜测）。

VHs多针问题结果。所有视觉感知模型表现均不佳，表明模型难以隐式整合视觉信息。
视觉领域的现象

最后，我们发现LMM的准确性受到针图像在输入序列中位置的巨大影响。例如，当针图像位于问题之前时，LLaVA表现更好，否则性能下降高达26.5%。相比之下，专有模型通常在图像位于开头时表现更好，当图像不在开头时性能下降高达28.5%。这种模式呼应了自然语言处理（NLP）领域所见的“中间丢失”现象，其中位于上下文开头或结尾的关键信息会影响模型性能。我们之前的Gemini风格NIAH评估中未出现此问题，因为它仅需要文本检索和推理，这突显了我们VHs基准测试带来的独特挑战。

VHs不同图像设置下的针位置与性能对比。现有LMM在针未理想放置时，性能下降高达41%。灰色框：超出上下文长度。

MIRAGE：基于RAG的改进VHs性能的解决方案

基于上述实验结果，现有MIQA解决方案的核心挑战在于（1）能够准确地从大量可能无关的图像池中检索相关图像，且无位置偏差，以及（2）整合来自这些图像的相关视觉信息以正确回答问题。为了解决这些问题，我们引入了一个开源且简单的单阶段训练范式“MIRAGE”（Multi-Image Retrieval Augmented Generation），它扩展了 LLaVA 模型以处理MIQA任务。下图展示了我们的模型架构。

MIRAGE模型架构

我们提出的范式包含几个组件，每个组件都旨在缓解MIQA任务中的关键问题：

压缩现有编码：MIRAGE范式利用查询感知的压缩模型，将视觉编码器令牌减小到更小的子集（小10倍），从而在相同的上下文长度内可以包含更多图像。
使用检索器过滤掉无关信息：MIRAGE使用一个与LLM微调同步训练的检索器，来预测图像是否相关，并动态丢弃不相关的图像。
多图训练数据：MIRAGE通过多图推理数据和合成多图推理数据来增强现有的单图指令微调数据。

结果

我们使用MIRAGE重新审视了VHs基准测试。除了能够处理1K或10K张图像外，MIRAGE在大多数单针任务上取得了最先进的性能，尽管其单图QA骨干网络较弱，每张图像只有32个令牌！

MIRAGE在VHs上的单针任务表现

我们还在各种VQA任务上对MIRAGE和其他基于LMM的模型进行了基准测试。在多图任务上，MIRAGE展现出强大的召回率和精确率能力，显著优于GPT-4、Gemini-v1.5和 Large World Model (LWM) 等强大竞争对手。此外，它还表现出具有竞争力的单图QA性能。

VQA评估结果

最后，我们将MIRAGE的协同训练检索器与 CLIP 进行了比较。我们的检索器在不损失效率的情况下，表现远优于CLIP。这表明，尽管CLIP模型在开放词汇图像检索方面可以作为良好的检索器，但在处理类似问题的文本时可能效果不佳！

消融研究

最终 remarks

在这项工作中，我们开发了视觉干草堆（VHs）基准测试，并识别了当前大型多模态模型（LMMs）存在的三个普遍不足：

在视觉干扰下挣扎：在单针任务中，随着图像数量的增加，LMMs的性能急剧下降，表明在过滤无关视觉信息方面存在重大挑战。
跨多图推理困难：在多针设置中，诸如字幕后进行语言QA等简单方法优于所有现有的LMM，这凸显了LMM处理多图信息能力不足。
视觉领域的现象：专有模型和开源模型都对针信息在图像序列中的位置敏感，在视觉领域表现出“中间丢失”现象。

作为回应，我们提出了MIRAGE，一个开创性的视觉检索增强生成（visual-RAG）框架。MIRAGE通过创新的视觉令牌压缩器、协同训练的检索器以及增强的多图指令调优数据来解决这些挑战。

在探索完这篇博客文章后，我们鼓励所有未来的LMM项目使用视觉干草堆框架来基准测试他们的模型，以便在部署前识别并纠正潜在的不足。我们还敦促社区探索多图问答，以推动真正通用人工智能（AGI）的前沿发展。

最后但同样重要的是，请查看我们的项目页面， arxiv论文，并点击我们 github 仓库中的星标按钮！

@article{wu2024visual, title={Visual Haystacks: Answering Harder Questions About Sets of Images}, author={Wu, Tsung-Han and Biamby, Giscard and and Quenum, Jerome and Gupta, Ritwik and Gonzalez, Joseph E and Darrell, Trevor and Chan, David M}, journal={arXiv preprint arXiv:2407.13766}, year={2024}
}

所有这些实验都在四月和五月进行，此后我们观察到一些专有模型（如 Gemini）有所改进。 ↩

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

“视觉干草堆”：首个视觉导向的多图问答基准测试，评估大型多模态模型在长上下文视觉信息处理能力

如何对MIQA中的VQA模型进行基准测试？

什么是视觉干草堆（VHs）基准测试？

来自VHs的三个重要发现

MIRAGE：基于RAG的改进VHs性能的解决方案

结果

最终 remarks

评论区