📢 转载信息

原文链接：https://www.infoq.com/news/2025/10/granite-docling-ibm/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

原文作者：Robert Krzaczyński

IBM 发布紧凑型视觉语言模型 Granite-Docling-258M，实现高精度文档转换

发布于 2025年10月08日 · 阅读时长 2 分钟

IBM Research 近期推出了 **Granite-Docling-258M**，这是一个全新的开源视觉语言模型（VLM），专为高保真度的文档到文本转换而设计，能够精确保留复杂的版面、表格、方程式和列表。

与依赖大型通用模型的传统 OCR 系统不同，Granite-Docling 是为文档解析而专门构建的。它仅拥有 **2.58 亿**个参数，却能提供与那些模型大数倍的模型相当的准确性——这在成本和效率上带来了巨大的优势。该模型超越了简单的文本提取，能够保留精确的文档结构，包括数学符号、表格布局和代码块，非常适合用于检索增强生成（RAG）管道和数据集准备工作。

架构升级与稳定性的提升

Granite-Docling 在早期的 SmolDocling-256M-preview 的基础上进行了迭代，用基于 Granite 3 的架构替换了 SmolLM-2 主干，并将视觉编码器从 SigLIP 升级到了 **SigLIP2**。新版本通过改进的数据集过滤和注释清理，解决了早期版本中可能出现的令牌重复或解析不完整等稳定性问题。

社区反响：本地部署潜力巨大

社区对该模型的早期反应强调了其在设备端使用的巨大潜力。一位 Reddit 网友评论道：

0.3B？令人印象深刻。这几乎意味着未来的低端手机也能实现可靠的本地 LLM 推理。

IBM 团队成员对此回应道：

谢谢，我们正致力于在更小的模型上实现最大化的性能，因为有些任务确实不需要那么大的模型。

性能与 DocTags 结构化标记

IBM Research 强调，Granite-Docling 在标准文档理解数据集上的基准测试结果显示，它在准确性、结构保真度和布局保留方面持续改进。其 Hugging Face 模型卡中包含了完整的性能数据，其中 Granite-Docling 在表格结构识别和方程式解析等指标上，能够匹敌甚至超越更大的专有系统，同时保持次线性的内存使用。

Granite-Docling 性能的核心在于 **DocTags**，这是一种结构化标记格式，用于描述页面上的每一个元素——包括表格、图表、代码、表单和标题——及其空间和逻辑关系。这种明确的标记使得模型能够将内容与结构分离，生成紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。

该模型还引入了实验性的多语言支持，包括阿拉伯语、中文和日文，扩展了其前身仅支持英语的范围。尽管这些功能尚处于早期阶段，但 IBM 表示，全球语言覆盖将是未来版本的一个核心目标。

未来展望与集成

Granite-Docling 旨在与 Docling 库互补，后者提供可定制的文档转换管道和智能体 AI 集成。将两者结合使用，可以将高精度与企业文档工作流的灵活编排相结合。

IBM 表示，接下来的工作将包括更大参数规模的 Granite-Docling 模型（最高可达 9 亿参数）、通过 Docling-eval 扩展评估数据集，以及将 DocTags 更深入地集成到 IBM watsonx.ai 中。

Granite-Docling-258M 现已在 Hugging Face 上发布，采用 Apache 2.0 许可证。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

IBM发布紧凑型视觉语言模型Granite-Docling-258M，实现高精度文档转换

IBM 发布紧凑型视觉语言模型 Granite-Docling-258M，实现高精度文档转换

架构升级与稳定性的提升

社区反响：本地部署潜力巨大

性能与 DocTags 结构化标记

未来展望与集成

评论区