📢 转载信息
原文作者:Microsoft Research
我们很高兴地宣布MMCTAgent,这是一个旨在通过高效、准确地推理和问答大规模视频和图像集合来赋能大型多模态模型(LMMs)的代理框架。LMMs在处理视觉问答(VQA)和视觉定位(VL)等任务上展现出惊人的能力,但它们仍然难以直接处理大型视频和图像数据集,因为这些数据量通常超出模型的上下文窗口限制。我们提出了MMCTAgent来解决这一挑战,该代理框架能够选择性地利用多个检索到的视觉提示来指导LMMs进行多步推理,并生成准确的答案。
核心挑战:超越上下文窗口
现有的方法主要依赖于对输入图像或视频的密集特征提取,但这会导致性能随着数据量的增加而下降,并且计算成本高昂。我们认为,LMMs的局限性在于无法在单一的上下文中处理大量的视觉信息。我们通过引入一个代理式方法来克服这一限制,该方法模拟人类在处理大量信息时所采取的策略:聚焦、检索和迭代推理。
MMCTAgent的工作原理
MMCTAgent的设计基于一个核心思想:将大规模视觉推理分解为一系列可管理的、迭代的步骤,每个步骤都由一个专门的组件负责:
1. 视觉提示检索(Visual Prompt Retrieval)
MMCTAgent使用一个高效的检索器从大型数据集中识别与当前查询最相关的视觉片段(图像或视频帧)。它并不试图将所有信息都塞入模型的上下文窗口,而是根据查询的语义相关性,智能地选择出最具信息量的少数几个片段。
2. 迭代多步推理(Iterative Multi-Step Reasoning)
一旦检索到关键视觉提示,MMCTAgent会利用LMMs的推理能力,以一种迭代的方式逐步构建答案。这涉及以下关键机制:
- 分解查询:将复杂的自然语言查询分解成更小的、可处理的子任务。
- 上下文整合:在每一步中,LMM被提示(Prompt)去综合分析当前子任务、已有的推理步骤以及检索到的视觉提示。
- 自我修正:代理能够检查中间结果的准确性,并在必要时重新检索或修正其推理路径。
实验结果
我们在多个基准数据集上评估了MMCTAgent的性能,这些数据集包含了大量视频和图像。结果表明,与现有最先进的方法相比,我们的代理框架在处理大规模数据时,不仅保持了高准确性,而且在计算效率上也表现出色。
在Video-VQA任务中,MMCTAgent在处理包含数百个帧的长视频问答时,显著提高了准确率,平均提升了12%以上。特别是在需要跨多个不连续场景进行推理的任务中,其优势最为明显。
我们相信,MMCTAgent代表了向构建真正能够理解和推理海量视觉内容的人工智能系统迈出的重要一步。
欲了解更多技术细节和代码实现,请参阅我们的技术报告。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区