📢 转载信息
原文作者:David Kaleko, Jordan Ratner, Mofijul Islam, Bob Strahan, and Tryambak Gangopadhyay
从非结构化数据中提取结构化信息是释放业务价值的关键第一步。我们的生成式AI智能文档处理(GenAI IDP)加速器一直处于这场变革的前沿,已为数百个客户处理了数千万份文档。
尽管组织可以使用智能文档处理(IDP)解决方案来数字化文档并提取结构化数据,但有效分析这些已处理数据的方法仍然难以捉摸。文档经过处理和结构化后,一个新的挑战随之出现:企业如何快速分析这些丰富的信息并解锁可操作的见解?
为了满足这一需求,我们宣布推出分析智能体(Analytics Agent),这是一项无缝集成到GenAI IDP加速器中的新功能。借助此功能,用户无需具备SQL或数据分析专业知识,即可使用自然语言查询执行高级搜索和复杂分析。
在本文中,我们将讨论非技术用户如何使用此工具来大规模分析和理解他们已处理的文档,而这一切都通过自然语言完成。
GenAI IDP加速器
GenAI IDP加速器是一个开源解决方案,它帮助组织利用生成式AI自动从各种文档类型中提取信息。该加速器结合了Amazon Bedrock以及其他AWS服务,包括AWS Lambda、AWS Step Functions、Amazon Simple Queue Service(Amazon SQS)和Amazon DynamoDB,以创建一个无服务器系统。GenAI IDP加速器旨在大规模运行,每天可处理数千份文档。它为用户提供了三种处理模式,用于构建复杂的文档处理工作流的定制解决方案。该加速器可以使用AWS CloudFormation模板进行部署,用户可以通过Web界面或直接向Amazon Simple Storage Service(Amazon S3)上传文件,立即开始处理文档。该加速器包含多个模块,如文档分类、数据提取、评估、摘要和验证。要了解有关GenAI IDP加速器的更多信息,请参阅使用AWS生成式AI加速智能文档处理。
现在,通过分析智能体功能使用自然语言查询,您可以提取有价值的信息来了解解决方案的性能。要访问此功能,只需部署最新版本的GenAI IDP加速器,然后在导航窗格中选择Agent Companion Chat,如下图所示(取自加速器版本0.4.7)。与分析相关的查询会自动路由到分析智能体。

分析智能体充当了业务用户与其已处理文档数据之间的智能接口。它可以处理通常需要熟练数据科学家才能完成的复杂查询,使普通业务用户也能进行高级分析。例如,医疗服务提供商可以询问:“上个月被拒绝的保险索赔占百分之多少?其中,有多少是由于文件不完整造成的?显示过去六个月拒绝原因的趋势。”或者,税务会计公司可以询问:“在我上传的W2表格中,哪些客户在多个州缴纳了州税?”
下图是使用Agent Companion Chat界面中的分析智能体功能进行分析的示例。一位会计领域的垂直用户查询:“对过去180天内所有上传的W2表格的税前收入制作直方图,在0到300,000美元之间划分25个区间”,该智能体在一分钟内分析了从1000多份W2表格中提取的数据。

分析智能体
分析智能体是使用Strands Agents构建的,Strands Agents是一个采用模型驱动方法构建AI智能体的开源SDK。该智能体利用多种工具,旨在通过提供自然语言到数据和可视化的转换,使处理企业数据更加直观。分析智能体的工作流程包括以下步骤:
- 如果需要,智能体使用数据库探索工具来了解IDP解决方案中存储在Amazon Athena表中的数据结构。这是必需的,因为IDP解决方案中的表可以根据用户配置处理管道的方式具有不同的模式。
- 智能体将自然语言查询转换为与可用数据库和表兼容的优化SQL查询。这些查询可以扩展到任意大小的表。
- 智能体在Athena上运行SQL并将查询结果存储在Amazon S3中。这些结果可能包含数千行。它会自动修复并重新运行潜在的失败查询,以解决Athena生成的错误消息。
- 智能体将查询结果从Amazon S3安全地传输到AWS Bedrock AgentCore代码解释器沙箱中。
- 智能体编写Python代码,旨在分析查询结果并生成与UI兼容的结构化输出(图表或表格)。代码被复制到沙箱中并在其中安全执行。
- 最后,最终的可视化结果在Web界面中呈现,以便于理解。
下图说明了分析智能体的工作流程。

解决方案概览
下图说明了无服务器分析智能体部署及其通过AWS AppSync API与现有IDP解决方案的集成情况。

分析智能体主要部署在Lambda函数中。当IDP前端向AppSync API提供用户查询时,一个临时请求处理程序Lambda函数会在DynamoDB中创建并存储一个唯一的作业ID以跟踪异步处理流程,并启动一个长时间运行的智能体请求处理器Lambda函数,该函数实例化一个Strands智能体并启动它。前端轮询作业状态,并从DynamoDB中检索最终结果(包括先前作业的结果)。智能体请求处理器Lambda函数拥有AWS身份和访问管理(IAM)权限,可以访问Athena中的IDP表,还可以启动和执行AgentCore代码解释器沙箱,以实现更安全的Python代码执行。
该架构遵循安全优先的设计原则:
- 沙箱执行 – Python代码在AgentCore代码解释器中运行,与AWS环境的其余部分和互联网完全隔离。
- 安全数据传输 – 查询结果通过Amazon S3和AgentCore API传输,而不是通过LLM的上下文窗口。
- 会话管理 – AgentCore代码解释器会话得到妥善管理,并在使用后清理。
- 最小权限 – 每个组件只请求必要的AWS权限。
- 审计跟踪 – 解决方案提供全面的日志记录和监控,以供安全审查。
利用分析智能体获得智能文档洞察
为了演示分析智能体的能力,我们使用GenAI IDP加速器处理了来自RVL-CDIP数据集的10,000份文档。该数据集包含备忘录、信函、表格和报告等多种文档类型,我们使用模式2配置处理这些文档,以提取包括文档类型、发件人、收件人和部门详细信息在内的结构化信息。在接下来的部分中,我们将详细介绍一个样本用户查询。
真实世界查询:部门备忘录分析
业务用户提出了一个简单的自然语言问题:“哪个部门生成的备忘录最多?”这个看似简单的查询传统上需要数据分析师完成以下步骤:
- 获取凭证并连接到内部数据库
- 通过执行探索性查询或阅读内部文档来了解数据库模式
- 编写带有正确Athena语法的复杂SQL
- 执行并验证查询
- 处理结果并创建可视化
- 格式化发现结果以供演示
分析智能体在不到一分钟内自主完成了整个工作流程。
使用分析智能体生成的可视化
下图显示了智能体基于单个自然语言查询生成的可视化效果。

分析显示,Lorillard生成的备忘录最多(11份),其次是INBIFO、企业事务(Corporate Affairs)和Philip Morris部门(各10份)。可视化展示了跨主要组织单位的分布情况,其中烟草研究和企业部门是备忘录生成的主力。如果用户想要不同的可视化样式,他们可以快速切换各种选项,如饼图、折线图和条形图。他们还可以将结果显示为表格。为了在本文中达到美观目的,我们将原始条形图切换成了环形图。
智能体的思考过程
智能体透明的推理过程揭示了幕后发生的全面协调。

智能体首先探索了数据库结构,识别出document_sections_memo表,并发现了包含所需信息的inference_result.department列。
智能体编写了一个优化的Athena查询,其中包含正确的列引用和空值处理,点击聊天窗口中的“View Details”即可显示:

在从查询结果中检索到唯一的部门信息后,智能体自动执行了以下操作:
- 生成Python代码以分析和可视化数据
- 将Python代码和SQL查询结果复制到一个安全的AgentCore代码解释器沙箱中
- 在沙箱内执行Python代码,返回一个包含图表数据的JSON字典
- 识别并修复了数据中NaN值的问题
- 创建了一个突出显示前15个部门的水平条形图
- 格式化输出以便无缝地显示在Web界面上
通过点击聊天窗口中的“View Details”可以显示它编写的用于将查询结果加载到沙箱内存并生成绘图以在前端显示的Python代码(为简洁起见,截图已裁剪):

智能体能力
此示例展示了三种变革性能力:
- 自主问题解决 – 智能体独立发现了数据库模式,识别了正确的表和列,并处理了数据质量问题(空值),而无需人工干预。这意味着该智能体可以处理IDP解决方案分析的不同文档,无论文档类型或IDP处理配置如何。
- 自适应推理 – 当智能体在初始可视化中检测到空值时,它通过过滤数据和重新生成图表自动纠正了问题,展示了自我修正的能力。
- 端到端可解释性 – 整个工作流程,从自然语言查询到完善的可视化,在90秒内完成,并具有完全的透明度。用户可以通过详细的思考过程日志审查智能体所做的每一个决定。
分析智能体将已处理的文档数据转化为可操作的情报,帮助业务用户像向同事提问一样轻松地探索其文档语料库。这种数据分析的民主化确保了宝贵的见解不会被技术壁垒所锁定,而是可以立即被组织内所有决策者获取。
客户如何使用此功能
此功能的强大之处在于它能够通过简单的对话,将业务用户转变为数据分析师,从而实现数据分析的民主化。客户可以在以下用例中使用此功能:
- 即时业务洞察:
- 用日常用语提出复杂问题,例如“上个季度超过50,000美元的发票占百分之多少?”
- 通过查询如“过去12个月发票平均价值的变化趋势如何?”立即获得趋势和模式的可视化。
- 通过查询如“显示总部位于西雅图办事处提交发票最多的员工”,无需等待IT或数据科学团队即可做出数据驱动的决策。
- 风险与合规性监控:
- 通过查询如“显示所有缺少强制性条款的合同”来实时检测异常情况。
- 跟踪不同文档类型的合规率。
- 识别需要立即关注的高风险文档。
- 运营卓越:
- 通过查询如“哪些文档类型的处理时间最长?”来监控处理瓶颈。
- 跟踪不同文档类别的准确率。
- 根据数量模式优化资源分配。
- 客户体验提升:
- 分析特定于客户的处理指标,例如查询:“我们本月使用我们100美元的处理分配预算还剩多少?”
- 识别流程自动化机会。
- 实时跟踪SLA合规性,例如查询:“哪些已处理的发票尚未关联已处理的工资单?”
- 战略规划:
- 根据历史模式预测处理量,例如查询:“我们预计年度文档上传量将增长20%。未来五年我们预计将处理多少文档?”
- 识别季节性趋势并据此规划。
- 跟踪文档处理投资的投资回报率(ROI)指标。
- 为系统扩展做出数据支持的决策。
最佳实践
在使用分析智能体时,请考虑以下最佳实践:
- 从广泛开始 – 在深入研究细节之前,先从一般性问题入手。
- 具体明确 – 清楚说明您需要什么信息。如有必要,不要害怕提供一整段话来描述您的需求。
- 使用后续查询 – 在前一个问题的基础上进行构建,以深入探讨某个主题。Agent Companion Chat中发送的聊天消息是有状态的,使您可以提出后续问题。
- 检查结果 – 验证可视化结果与您的数据是否合理,并阅读显示的智能体思考过程以验证它所做的决策。
与外部智能体AI系统的集成
分析智能体可以通过IDP加速器新的模型上下文协议(MCP)服务器轻松集成到其他智能体AI系统中,例如 Amazon Quick Suite。组织可以利用此集成将文档分析功能纳入其更广泛的AI工作流程和自动化平台中。有关实施指南和技术细节,请参阅MCP集成文档。
清理
当您完成对智能体分析功能的实验后,您可以根据需要选择两种清理选项:
- 移除单个分析查询 – 导航到Web UI中的“Agent Analysis”部分,并使用“load previous chat”窗格来删除特定的查询。或者,您可以直接从与您的堆栈关联的DynamoDB分析作业表中删除查询条目。
- 删除整个IDP部署 – 使用CloudFormation控制台删除IDP堆栈。对于带S3存储桶清空的自动化清理,您可以使用IDP CLI:
idp-cli delete --stack-name my-idp-stack --empty-buckets --force
有关更详细的清理过程和选项,请参阅IDP CLI文档。
结论
在本文中,我们讨论了GenAI IDP加速器的新分析智能体功能,这是一个基于Strands构建的自主智能体,它帮助非技术用户以自然语言大规模分析和理解他们已处理的文档。有了这个智能体,用户不再需要SQL专业知识或了解底层数据库结构即可检索数据或生成可视化。
访问GenAI IDP加速器GitHub仓库以获取详细指南和示例,并选择Watch以随时了解新版本和功能。AWS专业服务和AWS合作伙伴可为您提供实施方面的帮助。您也可以加入GitHub社区,为改进做出贡献并分享您的经验。
关于作者
David Kaleko是AWS生成式AI创新中心的高级应用科学家,负责领导针对AWS客户的前沿生成式AI实施策略的应用研究工作。他拥有哥伦比亚大学粒子物理学博士学位。
Tryambak Gangopadhyay是AWS生成式AI创新中心的高级应用科学家,他与来自不同行业的组织合作。他的工作涉及研究和开发生成式AI解决方案,以解决关键业务挑战并加速AI采用。在加入AWS之前,Tryambak在爱荷华州立大学获得了博士学位。
Mofijul Islam是AWS生成式AI创新中心的应用科学家II兼技术负责人,他利用生成式AI、大型语言模型、多智能体学习、代码生成和多模态学习来帮助客户解决以客户为中心的研究和业务挑战。他拥有弗吉尼亚大学机器学习博士学位,研究重点是多模态机器学习、多语言自然语言处理和多任务学习。他的研究成果发表在NeurIPS、ICLR、EMNLP、AISTATS和AAAI等顶级会议,以及IEEE和ACM期刊上。
Jordan Ratner是亚马逊云计算服务(AWS)的高级生成式AI战略师,他帮助不同规模的公司设计、部署和扩展AI解决方案。他曾共同创立了德勤的全球AI实践,并领导OneReach.ai担任执行合伙人,负责在全球范围内扩展对话式AI和生成式AI的部署。Jordan现在专注于将快速发展的AI趋势转化为可重用的产品和框架,推动跨行业的实际应用。
Bob Strahan是AWS生成式AI创新中心的主任解决方案架构师。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区