目 录CONTENT

文章目录

重磅突破!华科大白翔团队推出LIRA框架:用两大模块实现多模态理解与图像分割双SOTA

青云TOP
2025-10-03 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339267.html

原文作者:量子位


多模态大模型的能力正在从简单的文生图,迅速扩展到需要像素级精度的图像分割任务。

然而,现有的方法如OMG-LLaVA或基于“embedding-as-mask”范式的LISA(CVPR 2024),普遍面临两大难题:**分割结果不够精确**和**理解过程中容易产生幻觉**。这主要源于模型对物体属性理解的不足和细粒度感知能力的局限。

为解决这些核心痛点,华中科技大学团队联合金山办公团队,重磅推出了全新的多模态大模型框架——LIRA。该框架仅通过引入两个巧妙设计的核心模块,就在分割和理解两项任务上同时达到了双重SOTA(State-of-the-Art)水平!

LIRA的两个核心模块是:

  1. 语义增强特征提取器 (SEFE):融合语义特征与像素级特征,显著提升模型对物体属性的推理能力,从而生成更精准的分割结果。
  2. 交错局部视觉耦合 (ILVC):基于分割掩码提取局部特征,并自回归生成局部描述,为模型提供细粒度的监督信号,有效减少理解幻觉。

目前,LIRA项目已被ICCV 2025 录用

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

与强大的InternVL2相比,LIRA在保持理解性能的同时,新增了图像分割能力;相比OMG-LLaVA,LIRA在图像分割任务上平均提升了8.5%,在MMBench基准测试上更是提升了33.2%

🔍 现有方法的局限:为何分割总出错?

多模态大模型结合分割的尝试由来已久,如LISA的“embedding-as-mask”范式,以及OMG-LLaVA采用通用分割模型作为视觉编码器。

然而,在复杂场景中,模型的分割错误率依然很高。研究人员发现一个有趣的现象:当使用不同图像生成的token embedding(用于分割)时,即使图像内容不同,某些token依然会倾向于分割出特定物体(如图中左侧的公交车)。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

进一步分析发现,模型可能在token中错误地编码了与图像无关的语义信息(例如,错误的“left”倾向性),导致**位置信息编码不准确**,暴露出视觉理解能力的深层局限。

此外,现有方法仅依赖位置查询来定位目标,但缺乏将局部图像特征与生成的文本描述进行明确关联的机制,这正是“幻觉”产生的温床。

这引发了一个关键思考:我们是否应该直接将局部图像特征输入文本大模型,让模型基于该区域生成描述,从而建立更清晰的视觉特征与语义映射关系?

🧠 LIRA登场:精准理解与像素分割的双重保障

LIRA正是基于上述思路构建的,它旨在准确执行“Inferring Segmentation”,即根据用户查询和图像信息,理解物体属性并实现精确分割。

LIRA的设计核心正是为了解决前述问题,它通过SEFE和ILVC模块,实现了对查询(如“离白色汽车最近的红色巴士”)的精准指向,并能准确分割出目标。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

1. 语义增强特征提取器 (SEFE):融合高低层信息

SEFE模块结合了来自预训练多模态大模型的“语义编码器”和分割模型的“像素编码器”。

通过MLP将两者特征统一维度后,利用多头交叉注意力机制进行融合,生成更丰富、更具辨识度的全局特征,最终输入LLM。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

2. 交错局部视觉耦合模块 (ILVC):告别幻觉

ILVC的灵感来源于人类的感知过程:先关注区域,再进行描述。它旨在显式地将局部图像区域与其对应的文本描述对齐,克服现有方法仅依赖token的弊端。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

具体流程是:LIRA使用token生成初步分割掩码 $ ightarrow$ 基于该掩码从原始图像中裁剪出局部区域 $ ightarrow$ 将裁剪区域输入SEFE提取局部特征 $ ightarrow$ 将编码后的局部特征反馈给文本大模型,生成该区域的精确描述。

通过这种“交错训练范式”,ILVC成功地为局部图像特征引入了细粒度监督,极大地缓解了模型在生成描述时的幻觉问题。

📊 实验结果:多维度超越现有SOTA

实验结果有力证明了LIRA在理解和分割任务上均表现出色。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

SEFE的有效性验证: 在InternLM2-1.8B骨干网络上,整合SEFE后,理解任务平均提升5.7%,分割任务提升3.8%。7B模型上也有类似的显著提升。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

ILVC缓解幻觉: 在数据集ChairS上,整合ILVC后,1.8B和7B模型的幻觉率分别降低了3.0%和4.8%。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

联合训练性能: LIRA使用理解和分割数据联合训练时,性能仅比单独用理解数据训练略微下降0.2%,但相对于OMG-LLaVA在五个理解数据集上高达近15%的性能下降幅度,LIRA的鲁棒性令人印象深刻。

用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架

总而言之,LIRA不仅在理解和分割任务上实现了性能的双向飞跃,还开创性地将Token的语义内涵纳入细粒度研究视野,为未来多模态模型的发展指明了新的方向。

相关资源:

  • arXiv:
    https://arxiv.org/abs/2507.06272
  • GitHub:
    https://github.com/echo840/LIRA



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区