📢 转载信息
原文链接:https://blogs.nvidia.com/blog/ai-agents-intelligent-document-processing/
原文作者:Moon Chung
编者按:本帖属于 Nemotron 实验室 博客系列的一部分,该系列探讨了最新的开源模型、数据集和训练技术如何帮助企业在 NVIDIA 平台上构建专业化的 AI 系统和应用。每篇文章都重点介绍了如何使用开源技术栈在生产环境中实现价值——从透明的研究副驾驶到可扩展的 AI 智能体。
当今企业面临着一个挑战:如何从报告、演示文稿、PDF、网页和电子表格等各种文档中发掘有价值的见解。
通常情况下,团队通过手动审查文件、将数据复制到电子表格、构建仪表板以及使用往往会忽略复杂媒体中重要细节的基础搜索或基于模板的光学字符识别(OCR)工具来拼凑见解。
智能文档处理(Intelligent Document Processing, IDP)是一种由 AI 驱动的工作流程,它可以自动读取、理解和提取文档中的见解。它利用 AI 智能体和 检索增强生成(RAG)等技术来解释文档内的丰富格式——包括表格、图表、图像和文本——从而将多模态内容转化为其他 多智能体系统和人员可以轻松使用的洞察。
借助 NVIDIA Nemotron 开源模型和 GPU 加速库,组织可以为研究、金融服务、法律工作流程等构建由 AI 驱动的文档智能系统。
这些开源模型、数据集和训练配方已在 MTEB、MMTEB 和 ViDoRe V3 等排行榜上取得了出色的成果,这些基准用于评估多语言和多模态检索模型。团队可以根据任务(如搜索和问答)从最佳模型中进行选择。
文档处理如何简化商业智能
能够从复杂布局中提取意义、扩展到海量文件库并准确显示答案来源的文档智能系统,在风险较高的环境中极其有用。这些系统能够:
- 理解丰富的文档内容,超越简单的文本抓取,捕获图表、表格、图形和混合语言页面中的信息,并像人类一样对待文档,识别结构、关系和上下文。
- 处理大量变化的数据,并行摄取和处理海量文档集合,并持续更新知识库。
- 精准找到用户所需,帮助 AI 智能体精确定位与查询最相关的段落、表格或文本片段,以便它们能够精确、准确地作出回应。
- 展示答案背后的证据,提供指向特定页面或图表的引用,从而使团队能够在受监管行业中实现关键所需(透明度和可审计性)。

其结果是实现了从静态文档档案到直接驱动商业智能、客户体验和运营工作流程的“活知识系统”的转变。
文档智能的实际应用
基于 NVIDIA Nemotron RAG 模型、Nemotron Parse 和加速计算构建的智能文档处理系统,已经在重塑各行业组织如何从文档中获取见解。
Justt:AI 原生费用分摊管理和争议优化
在金融服务领域,支付争议会给商家带来巨大的收入损失和运营复杂性,这主要是因为处理争议所需的证据分散在非结构化格式中。交易日志、客户通信和政策文件通常分散在不同系统中,难以大规模处理,导致争议处理缓慢、人工干预多且成本高昂。
Justt.ai 提供了一个 AI 驱动的平台,可大规模自动化完整的拒付生命周期。该平台直接连接到支付服务提供商和商家数据源,以摄取交易数据、客户互动和政策,然后自动汇总与卡组织和发卡机构要求相符的、针对特定争议的证据。
该平台由 Nemotron Parse 驱动的 AI 驱动争议优化功能,应用预测分析来确定应争取还是接受哪些拒付,以及如何优化每项回应以实现最大的净回收额。HEI Hotels & Resorts 等领先的酒店运营商使用该平台来自动化其旗下酒店的争议处理,在维护客户关系的同时,挽回了收入。
通过将以文档为中心的智能与决策自动化相结合,商家可以挽回因不合理的拒付而损失的大部分收入,同时减少人工审查的工作量。
Docusign:扩展协议智能
Docusign 是智能协议管理领域的全球领导者,每天为超过 180 万客户和 10 亿用户处理数百万笔交易。
协议是每项业务的基础,但其关键信息往往深埋在文件的页面之中。为了提取这些信息,Docusign 需要从复杂的文档(如 PDF)中高保真地提取表格、文本和元数据,以便组织能够更快地理解并对义务、风险和机遇采取行动。
Docusign 正在评估 Nemotron Parse,以实现更深层次、大规模的合同理解。该模型在 NVIDIA GPU 上运行,结合了先进的 AI 与布局检测和 OCR 技术。该系统可以可靠地解释复杂的表格并重建具有所需信息的表格。这减少了人工更正的需求,并有助于确保即使是最复杂的合同也能以客户期望的速度和准确性进行处理。
在此基础上,Docusign 将把协议存储库转变为驱动合同搜索、分析和 AI 驱动工作流程的结构化数据——将协议转化为商业资产,帮助组织及其团队提高可见性、降低风险并更快地做出决策。
Edison Scientific:跨海量文献规模的研究
Edison Scientific 的 Kosmos AI 科学家帮助研究人员驾驭复杂的科学格局,以综合文献、识别联系和发现证据。
Edison 需要一种方法来快速、准确地从大量 PDF 中提取结构化信息,包括传统信息解析方法经常处理不当的方程、表格和图形。
通过将 NVIDIA Nemotron Parse 模型集成到其 PaperQA2 管道中,Edison 可以分解研究论文、索引关键概念并将响应建立在特定段落上,从而提高了研究人员的处理吞吐量和答案质量。这种方法将一个庞大的研究语料库变成了一个交互式、可查询的知识引擎,加速了假设生成和文献回顾。
Nemotron Parse 的高效率使其能够在规模化部署中实现成本效益,使 Edison 团队能够解锁整个多模态管道。
使用 NVIDIA 技术设计智能文档处理应用
一个强大、领域特定的文档智能管道需要能够处理数据提取、嵌入和重排序的技术,同时确保数据安全并符合法规要求。
- 提取: Nemotron 提取和 OCR 模型可快速摄取多模态 PDF、文本、表格、图形和图像,将其转换为结构化的、机器可读的内容,同时保留布局和语义。
- 嵌入: Nemotron 嵌入模型将段落、实体和视觉元素转换为针对文档检索优化的向量表示,从而实现语义准确的搜索。
- 重排序: Nemotron 重排序模型评估候选段落,以确保将最相关的内容作为大型语言模型(LLM)的上下文呈现,从而提高答案保真度并减少幻觉。
- 解析: Nemotron Parse 模型可解读文档语义,以提取具有精确空间定位和正确阅读流程的文本和表格。它们克服了布局的可变性,将非结构化文档转化为可操作的数据,从而提高了 LLM 和智能体工作流程的准确性。
这些功能被打包成 NVIDIA NIM 微服务和 基础模型,这些模型可以在 NVIDIA GPU 上高效运行,使团队能够在将概念验证扩展到生产的同时,将敏感数据保留在他们选择的云或数据中心环境中。
最有效的 AI 系统使用前沿模型和 NVIDIA Nemotron 等开源模型的混合体,其中 LLM 路由器分析每项任务并自动选择最适合它的模型。这种方法在保持强大性能的同时,管理计算成本并提高效率。
开始使用 NVIDIA Nemotron
请参阅关于如何使用 RAG 构建文档处理管道的逐步教程。探索 Nemotron RAG 如何为针对不同行业量身定制的专业智能体提供支持。
此外,还可以在 GitHub 和 Hugging Face 上试用 Nemotron RAG 模型和 NVIDIA NeMo Retriever 开源库,并在 Hugging Face 上试用 Nemotron Parse。
加入构建 NVIDIA 企业 RAG 蓝图的开发者社区——该蓝图受到十多家行业领先AI 数据平台提供商的信赖,现已在 build.nvidia.com、GitHub 和 NGC 目录上提供。
通过订阅 NVIDIA AI 新闻、加入社区,并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA AI,随时了解智能体 AI、NVIDIA Nemotron 等最新动态。
探索自定进度的视频教程和直播。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区