📢 转载信息
原文作者:Microsoft Research
MMCTAgent:使AI能够在大型视频和图像集合上进行多模态推理
我们提出了MMCTAgent,一个新颖的多模态推理代理,旨在使大型语言模型(LLMs)能够有效地在大规模视频和图像集合上进行复杂的、多步骤的推理。现有的视觉语言模型(VLMs)在处理大规模、异构的视觉数据时面临挑战,因为它们通常依赖于受限制的上下文窗口或需要耗时的、基于密集检索的视觉信息提取。
MMCTAgent通过将推理过程分解为检索和生成两个阶段来克服这些限制。在检索阶段,它利用一种新颖的、基于图的检索机制来识别与查询最相关的视频和图像片段。在生成阶段,它使用LLM结合检索到的视觉上下文来形成最终的答案。
主要挑战与MMCTAgent的解决方案
处理大型视觉数据集的主要挑战包括:
- 上下文限制: 标准LLMs的上下文窗口无法容纳大量视觉信息。
- 效率低下: 依赖密集检索的系统在处理大量数据时速度慢且计算成本高。
- 多模态连贯性: 确保跨多个视频和图像的推理逻辑连贯性。
MMCTAgent通过引入多模态上下文图(MCT-Graph)来解决这些问题。MCT-Graph将视觉信息表示为可供推理的结构化知识,从而使代理能够执行以下关键操作:
- 语义图构建: 将大型视觉集合(视频、图像)的摘要和关键帧信息组织成一个可导航的图结构。
- 选择性检索: 代理可以根据查询动态选择图中最相关的节点(即片段),而不是处理整个数据集。
- 迭代推理: 支持多步推理过程,其中每一步的检索结果都会影响下一步的查询策略。
技术实现概述
MMCTAgent的架构核心在于其图感知检索能力。
首先,对于给定的视觉数据集,系统会生成一个初始的多模态摘要和关键信息嵌入。这些嵌入构成了MCT-Graph的节点。
“通过将大规模视觉信息转化为可操作的图结构,MMCTAgent实现了比传统检索增强模型更高的推理效率和更强的泛化能力。”
当接收到一个查询时,代理会执行以下流程:
- 查询分析: LLM分析查询,确定所需的视觉信息类型和初始检索目标。
- 图搜索: 代理使用目标信息在MCT-Graph中执行高效的搜索,获取最相关的视觉上下文。
- 信息融合与生成: 检索到的上下文(文本摘要、关键帧描述)被馈送到LLM,LLM生成最终的、连贯的答案。
- 反馈循环(可选): 对于复杂查询,代理可以根据初步结果调整搜索策略,并在图中进行进一步探索。
我们通过在具有挑战性的基准测试上评估MMCTAgent,展示了其优越性。结果表明,与现有SOTA方法相比,MMCTAgent在处理需要跨多个长视频片段进行推理的任务时,准确率显著提高,同时推理延迟显著降低。
未来影响
MMCTAgent的框架为未来的多模态AI系统奠定了基础,特别是在需要分析海量非结构化数据的领域,例如视频监控分析、大规模数字档案探索以及复杂事件的自动时间线构建。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区