目 录CONTENT

文章目录

IBM发布紧凑型视觉语言模型Granite-Docling-258M,实现高精度文档转换

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.infoq.com/news/2025/10/granite-docling-ibm/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

原文作者:Robert Krzaczyński


IBM 发布紧凑型视觉语言模型 Granite-Docling-258M,实现高精度文档转换

发布于 2025年10月08日 · 阅读时长 2 分钟

IBM Research 近期推出了 **Granite-Docling-258M**,这是一个全新的开源视觉语言模型(VLM),专为高保真度的文档到文本转换而设计,能够精确保留复杂的版面、表格、方程式和列表。

与依赖大型通用模型的传统 OCR 系统不同,Granite-Docling 是为文档解析而专门构建的。它仅拥有 **2.58 亿**个参数,却能提供与那些模型大数倍的模型相当的准确性——这在成本和效率上带来了巨大的优势。该模型超越了简单的文本提取,能够保留精确的文档结构,包括数学符号、表格布局和代码块,非常适合用于检索增强生成(RAG)管道和数据集准备工作。

架构升级与稳定性的提升

Granite-Docling 在早期的 SmolDocling-256M-preview 的基础上进行了迭代,用基于 Granite 3 的架构替换了 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级到了 **SigLIP2**。新版本通过改进的数据集过滤和注释清理,解决了早期版本中可能出现的令牌重复或解析不完整等稳定性问题。

社区反响:本地部署潜力巨大

社区对该模型的早期反应强调了其在设备端使用的巨大潜力。一位 Reddit 网友评论道:

0.3B?令人印象深刻。这几乎意味着未来的低端手机也能实现可靠的本地 LLM 推理。

IBM 团队成员对此回应道:

谢谢,我们正致力于在更小的模型上实现最大化的性能,因为有些任务确实不需要那么大的模型。

性能与 DocTags 结构化标记

IBM Research 强调,Granite-Docling 在标准文档理解数据集上的基准测试结果显示,它在准确性、结构保真度和布局保留方面持续改进。其 Hugging Face 模型卡中包含了完整的性能数据,其中 Granite-Docling 在表格结构识别和方程式解析等指标上,能够匹敌甚至超越更大的专有系统,同时保持次线性的内存使用。

Granite-Docling 性能的核心在于 **DocTags**,这是一种结构化标记格式,用于描述页面上的每一个元素——包括表格、图表、代码、表单和标题——及其空间和逻辑关系。这种明确的标记使得模型能够将内容与结构分离,生成紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。

该模型还引入了实验性的多语言支持,包括阿拉伯语、中文和日文,扩展了其前身仅支持英语的范围。尽管这些功能尚处于早期阶段,但 IBM 表示,全球语言覆盖将是未来版本的一个核心目标。

未来展望与集成

Granite-Docling 旨在与 Docling 库互补,后者提供可定制的文档转换管道和智能体 AI 集成。将两者结合使用,可以将高精度与企业文档工作流的灵活编排相结合。

IBM 表示,接下来的工作将包括更大参数规模的 Granite-Docling 模型(最高可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及将 DocTags 更深入地集成到 IBM watsonx.ai 中。

Granite-Docling-258M 现已在 Hugging Face 上发布,采用 Apache 2.0 许可证。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区