📢 转载信息
原文作者:Robert Krzaczyński
IBM 发布紧凑型视觉语言模型 Granite-Docling-258M,实现高精度文档转换
发布于 2025年10月08日 · 阅读时长 2 分钟
IBM Research 近期推出了 **Granite-Docling-258M**,这是一个全新的开源视觉语言模型(VLM),专为高保真度的文档到文本转换而设计,能够精确保留复杂的版面、表格、方程式和列表。
与依赖大型通用模型的传统 OCR 系统不同,Granite-Docling 是为文档解析而专门构建的。它仅拥有 **2.58 亿**个参数,却能提供与那些模型大数倍的模型相当的准确性——这在成本和效率上带来了巨大的优势。该模型超越了简单的文本提取,能够保留精确的文档结构,包括数学符号、表格布局和代码块,非常适合用于检索增强生成(RAG)管道和数据集准备工作。
架构升级与稳定性的提升
Granite-Docling 在早期的 SmolDocling-256M-preview 的基础上进行了迭代,用基于 Granite 3 的架构替换了 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级到了 **SigLIP2**。新版本通过改进的数据集过滤和注释清理,解决了早期版本中可能出现的令牌重复或解析不完整等稳定性问题。
社区反响:本地部署潜力巨大
社区对该模型的早期反应强调了其在设备端使用的巨大潜力。一位 Reddit 网友评论道:
0.3B?令人印象深刻。这几乎意味着未来的低端手机也能实现可靠的本地 LLM 推理。
IBM 团队成员对此回应道:
谢谢,我们正致力于在更小的模型上实现最大化的性能,因为有些任务确实不需要那么大的模型。
性能与 DocTags 结构化标记
IBM Research 强调,Granite-Docling 在标准文档理解数据集上的基准测试结果显示,它在准确性、结构保真度和布局保留方面持续改进。其 Hugging Face 模型卡中包含了完整的性能数据,其中 Granite-Docling 在表格结构识别和方程式解析等指标上,能够匹敌甚至超越更大的专有系统,同时保持次线性的内存使用。
Granite-Docling 性能的核心在于 **DocTags**,这是一种结构化标记格式,用于描述页面上的每一个元素——包括表格、图表、代码、表单和标题——及其空间和逻辑关系。这种明确的标记使得模型能够将内容与结构分离,生成紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。
该模型还引入了实验性的多语言支持,包括阿拉伯语、中文和日文,扩展了其前身仅支持英语的范围。尽管这些功能尚处于早期阶段,但 IBM 表示,全球语言覆盖将是未来版本的一个核心目标。
未来展望与集成
Granite-Docling 旨在与 Docling 库互补,后者提供可定制的文档转换管道和智能体 AI 集成。将两者结合使用,可以将高精度与企业文档工作流的灵活编排相结合。
IBM 表示,接下来的工作将包括更大参数规模的 Granite-Docling 模型(最高可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及将 DocTags 更深入地集成到 IBM watsonx.ai 中。
Granite-Docling-258M 现已在 Hugging Face 上发布,采用 Apache 2.0 许可证。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区