苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.ithome.com/0/932/734.htm

原文作者：故渊

苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手

IT之家 3 月 26 日消息，科技媒体 9to5Mac 昨日（3 月 25 日）发布博文，报道称苹果公司携手威斯康星大学麦迪逊分校，联合发布名为 RubiCap 的全新 AI 训练框架，主要用于优化“密集图像描述”模型的训练流程。

IT之家注：密集图像描述（Dense Image Captioning）是一种先进的计算机视觉技术。与只给出一句整体描述不同，该技术能识别图片中的各个局部区域（如“桌子上的红苹果”、“远处的行人”），并为每个细节生成精准的文字说明。

这项技术在训练视觉语言模型、文本生成图像以及改善无障碍工具等领域具有核心价值。研究人员指出，传统的训练方法面临着人工标注成本过高的问题；而利用现有大模型生成合成数据的替代方案，则容易导致模型输出缺乏多样性且泛化能力较弱。

苹果研究团队为了攻克上述难题，创新设计全新强化学习机制。系统首先从数据集中抽取 5 万张图像，并调用 GPT-5、Gemini 2.5 Pro 等前沿大模型生成候选描述。

随后，系统利用 Gemini 2.5 Pro 分析候选内容，提炼共识与遗漏点，进而将其转化为清晰的评分标准。最后，由 Qwen2.5 模型担任“裁判”，根据这些标准对描述进行打分。这种机制为模型提供了结构化的精准反馈，让其明确知道该如何修正错误。

苹果基于这一框架，最终训练出了参数量分别为 20 亿、30 亿和 70 亿的三个 RubiCap 模型。测试数据显示，这些紧凑型模型展现出了惊人的效率，其中 70 亿参数模型在盲测中获得了最高的排名，并实现了最低的“幻觉”错误率，全面超越了参数量高达 720 亿的前沿大模型。

更值得一提的是，30 亿参数的微型模型在部分测试中甚至反超了 70 亿参数版本，进而充分证明，高质量的图像描述模型可以摆脱对庞大参数量的绝对依赖。

IT之家附上参考地址

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。