目 录CONTENT

文章目录

双核驱动,SOTA级分割与理解!华中科技大学团队推出多模态新框架LIRA

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339267.html

原文作者:量子位


多模态大模型(MLLM)的应用场景正从最初的文生图,扩展到更精细的像素级任务,如图像分割。

然而,像OMG-LLaVA或LISA(CVPR 2024)这样的现有模型,在实际应用中常面临两大痛点:分割结果不够精确,以及在理解复杂场景时出现“幻觉”。这主要是因为它们在物体属性理解和细粒度感知能力上存在局限。

LIRA登场:双模块设计实现分割与理解双重SOTA

为解决这些问题,华中科技大学团队与金山办公团队联合提出了创新的多模态大模型框架LIRA。该框架引入了两个核心模块:
  • 语义增强特征提取器(SEFE):融合了语义特征与像素级特征,显著提升了模型对物体属性的推理能力,从而获得更精确的分割结果。
  • 交错局部视觉耦合(ILVC):通过分割掩码提取局部特征,并自回归生成局部描述,为模型提供细粒度监督,有效减少理解幻觉。
最终,LIRA在分割和理解两项任务上均达到了State-of-the-Art(SOTA)水平。与InternVL2相比,LIRA在保持理解性能的同时,新增了图像分割能力;而对比OMG-LLaVA,LIRA在图像分割任务上平均提升8.5%,在MMBench基准上更是提升了33.2%。 该研究成果已被ICCV 2025接收。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

为何现有模型分割容易出错?

多模态大模型通过结合分割模块,正在向像素级分割迈进。LISA提出了“embedding-as-mask”范式,OMG-LLaVA则引入通用分割模型作为视觉编码器。 然而,在复杂场景下,模型常常无法准确识别目标。例如,OMG-LLaVA在识别“最靠近白色汽车的红色公交车”时就出现了错误。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
研究人员发现,模型生成的token embedding中可能包含了与当前图像无关的语义信息(例如,总是倾向于分割左侧物体),这表明模型在编码位置信息方面存在不足。 此外,现有方法依赖位置查询,但局部图像特征与对应文本描述之间的联系不够明确,容易导致理解幻觉。

LIRA:精确理解与分割的协同

LIRA旨在通过更精细的机制建立视觉特征与语义之间的明确映射。 通过对token logits的分析,研究团队发现token确实包含了被分割物体丰富的语义信息,能够准确地将诸如“离白色汽车最近的红色巴士”这样的复杂查询指向正确的区域。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
LIRA中的SEFE模块融合了来自多模态大模型(语义)和分割模型(像素)的特征,通过多头交叉注意力机制进行融合,以增强模型对物体属性的理解。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
ILVC模块则通过一种“交错”的训练范式,明确地将局部图像区域与文本描述对齐。它首先使用token生成分割掩码,裁剪出对应区域,再由SEFE提取特征,并将这些特征重新输入文本大模型以生成描述。 这种机制为局部图像特征引入了细粒度的监督,有效缓解了模型幻觉问题。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

实验验证:全面超越

实验结果强有力地证明了LIRA在理解和分割任务上均表现出色。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
在消融实验中,SEFE模块的加入显著提升了模型的性能,例如,在InternLM2-1.8B骨干网络上,理解任务平均提升5.7%,分割任务提升3.8%。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
加入ILVC后,模型在ChairS数据集上的幻觉率也相应降低,1.8B和7B规模的模型分别降低了3.0%和4.8%。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
LIRA在联合训练时,性能下降幅度远小于OMG-LLaVA,并在多个理解数据集上取得了显著优势。
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
总体而言,LIRA在细粒度多模态大模型领域提供了新的视角,通过SEFE和ILVC两个关键模块,实现了理解与分割任务的协同提升,并深化了对多模态Token语义的理解。

arXiv:
https://arxiv.org/abs/2507.06272

GitHub:
https://github.com/echo840/LIRA




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区