使用 Amazon Bedrock 构建可靠的智能体式 AI 解决方案：学习 Pushpay 在生成式 AI 评估方面的经验-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/build-reliable-agentic-ai-solution-with-amazon-bedrock-learn-from-pushpays-journey-on-genai-evaluation/

原文作者：Roger Wang, Frank Huang, Melanie Li, and Saurabh Gupta, Todd Colby

本文由 Pushpay 的 Saurabh Gupta 和 Todd Colby 联合撰写。

Pushpay 是一个市场领先的数字奉献和参与平台，旨在帮助教会和信仰组织高效地推动社区参与、管理捐赠并加强基于慷慨的筹款流程。Pushpay 的教会管理系统为教会管理员和事工领导者提供洞察驱动的报告、捐赠者发展仪表板以及财务工作流程的自动化。

利用生成式 AI 的强大功能，Pushpay 为满足事工的独特需求开发了一个创新的智能体式 AI 搜索功能。该方法使用自然语言处理，使事工人员能够用普通的英语提问，并从其社区数据中生成实时、可操作的见解。AI 搜索功能解决了事工领导者面临的一个关键挑战：需要在无需技术专业知识的情况下快速获取社区见解。例如，事工领导者可以输入“显示今年没有奉献的团体成员”或“显示未参与我的教会的人员”，并利用结果采取有意义的行动，以更好地支持社区中的个人。大多数社区领导者时间有限，缺乏技术背景；他们可以使用此解决方案，在几秒钟内通过自然语言查询获取关于其会众的有意义的数据。

通过赋予事工人员更快地获取社区见解的能力，AI 搜索功能支持了 Pushpay 鼓励教会与其社区成员之间慷慨和联系的使命。早期采用用户报告称，此解决方案已将他们获取见解的时间从几分钟缩短到几秒钟。为实现这一结果，Pushpay 团队在 Amazon Web Services (AWS) 上构建了使用智能体式 AI 功能的特性，同时实施了稳健的质量保证措施，并建立了快速迭代的反馈回路以持续改进。

在本文中，我们将引导您了解 Pushpay 构建此解决方案的历程，并探讨 Pushpay 如何使用 Amazon Bedrock 创建定制的生成式 AI 评估框架，以实现持续的质量保证，并在 AWS 上建立快速迭代的反馈回路。

解决方案概述：AI 驱动的搜索架构

该解决方案由几个关键组件协同工作，以提供增强的搜索体验。下图显示了解决方案架构图和整体工作流程。

Figure 1: AI Search Solution Architecture

图 1：AI 搜索解决方案架构

用户界面层：解决方案始于 Pushpay 用户通过现有的 Pushpay 应用程序界面提交自然语言查询。通过使用自然语言查询，教会事工人员可以使用 AI 功能获取数据洞察，而无需学习新的工具或界面。
AI 搜索智能体：系统的核心是 AI 搜索智能体，它由两个关键组件构成：
- 系统提示 (System prompt)：包含大型语言模型 (LLM) 的角色定义、指令和应用程序描述，用于指导智能体的行为。
- 动态提示构造器 (Dynamic prompt constructor, DPC)：根据用户的特定信息（如教会背景、示例查询和应用程序过滤器清单）自动构建额外的定制系统提示。它们还使用语义搜索从数百个可用的应用程序过滤器中仅选择相关的过滤器。DPC 提高了响应准确性和用户体验。
Amazon Bedrock 高级功能：该解决方案使用了以下 Amazon Bedrock 托管服务：
- 提示缓存 (Prompt caching)：通过缓存常用系统提示来减少延迟和成本。
- LLM 处理：使用 Claude Sonnet 4.5 来处理提示并生成应用程序所需的 JSON 输出，以便将所需的查询结果作为洞察展示给用户。
评估系统：评估系统实施了一个闭环改进解决方案，其中用户交互被仪器化、捕获并离线评估。评估结果会输入到仪表板，供产品和工程团队分析并推动对 AI 搜索智能体的迭代改进。在此过程中，数据科学团队会收集一个黄金数据集，并根据实际用户查询和经过验证的响应持续整理该数据集。

没有评估的初始解决方案面临的挑战

为了创建 AI 搜索功能，Pushpay 开发了 AI 搜索智能体的第一个迭代版本。该解决方案实施了一个单一的智能体，配置了一个精心调整的系统提示，其中包含系统角色、指令以及用户界面如何与每个过滤器及其子设置的详细解释协同工作。系统提示使用 Amazon Bedrock 提示缓存进行缓存，以减少 token 成本和延迟。该智能体使用系统提示来调用 Amazon Bedrock LLM，后者生成一个 JSON 文档，Pushpay 的应用程序使用该文档来应用过滤器并将查询结果呈现给用户。

然而，这个初始迭代很快暴露出一些局限性。虽然它在基本业务查询上显示出 60-70% 的成功率，但团队的准确率达到了平台期。对智能体的评估是一个手动且繁琐的过程。鉴于用户查询的多样性以及应用程序对 100 多个不同可配置过滤器的覆盖，将系统提示调整到此准确率阈值以上变得很困难。这些问题成为了团队迈向生产的关键阻碍。

Figure 2: AI Search First Solution
图 2：AI 搜索初始解决方案

通过添加定制生成式 AI 评估框架改进解决方案

为了解决衡量和提高智能体准确性的挑战，团队实施了一个集成到现有架构中的生成式 AI 评估框架，如下图所示。该框架由四个关键组件构成，它们协同工作，提供全面的性能洞察并实现数据驱动的改进。

Figure 3: Introducing the GenAI Evaluation Framework

图 3：引入生成式 AI 评估框架

黄金数据集 (The golden dataset)：一个包含 300 多个代表性查询的精选黄金数据集，每个查询都配有相应的预期输出，构成了自动化评估的基础。产品和数据科学团队精心开发和验证了此数据集，以实现对现实世界用例和边缘案例的全面覆盖。此外，还有一个持续整理过程，会添加具有经过验证结果的代表性实际用户查询。
评估器 (The evaluator)：评估器组件处理用户输入查询，并使用 LLM 即裁判模式将智能体生成的输出与黄金数据集进行比较。这种方法在生成核心准确性指标的同时，还会捕获详细的日志和性能数据（如延迟），以供进一步分析和调试。
领域类别 (Domain category)：领域类别是使用生成式 AI 领域总结和人工定义的正则表达式相结合的方式开发的，旨在有效对用户查询进行分类。评估器确定每个查询的领域类别，从而能够以类别为基础进行细致的评估，作为评估指标的附加维度。
生成式 AI 评估仪表板 (Generative AI evaluation dashboard)：该仪表板是 Pushpay 产品和工程团队的“任务控制中心”，显示领域类别级别的指标，用于评估性能和延迟，并指导决策。它使团队从单一的汇总分数转向细致的、基于领域的性能洞察。

准确性仪表板：按领域精确定位弱点

由于用户查询被分类到不同的领域类别中，仪表板使用 95% 的 Wilson 得分区间进行统计置信度可视化，以显示每个领域级别的准确性指标和查询量。通过使用类别，团队可以按领域精确定位 AI 智能体的弱点。在以下示例中，“活动 (activity)”域显示的准确性明显低于其他类别。

Figure 4: Pinpointing Agent Weaknesses by Domain

图 4：按领域精确定位智能体弱点

此外，性能仪表板（如下图所示）可视化了领域类别级别的延迟指标，包括 p50 到 p90 百分位数的延迟分布。在以下示例中，“活动”域的延迟明显高于其他领域。

Identifying Latency Bottlenecks by Domain

图 5：按领域识别延迟瓶颈

通过领域级洞察进行战略性推出

基于领域的指标揭示了跨语义领域的不同性能水平，提供了关于智能体有效性的关键洞察。Pushpay 利用这种细粒度的可见性来制定战略性的功能发布决策。通过暂时抑制性能不佳的类别（例如“活动”查询）并在优化期间进行处理，系统实现了 95% 的总体准确率。通过使用此方法，用户只体验到性能最好的功能，而团队则将其他功能优化到生产标准。

图 6：通过领域级功能发布实现 95% 的准确率

战略性优先排序：关注高影响力领域

为系统地优先改进，Pushpay 采用了 2x2 矩阵框架，根据两个维度（如下图所示）绘制主题：业务优先级（垂直轴）和当前性能或可行性（水平轴）。此可视化将具有高业务价值和强大现有性能的主题置于右上象限。团队随后关注这些领域，因为它们从已经不错的水平提升到针对业务关注主题的卓越 95% 准确率所需的额外工作量较少。

实施遵循迭代周期：在每轮增强之后，他们会重新分析结果，以确定下一组高潜力主题。这种系统化的、周期性的方法实现了持续优化，同时仍将重点放在业务关键领域。

Figure 7: Strategic Prioritization Framework for Domain Category Optimization

图 7：领域类别优化的战略性优先排序框架

动态提示构建

评估框架获得的见解促成了一项架构增强：引入了动态提示构造器。该组件通过允许对智能体能够处理的领域类别进行细粒度控制，实现了快速的迭代改进。结构化字段清单（以前嵌入在系统提示中）被转换为动态元素，使用语义搜索为每个用户查询构建上下文相关的提示。这种方法根据三个关键上下文维度定制提示过滤器清单：查询内容、用户角色和租户特定要求。结果是一个更精确、更高效的系统，可以在保持持续优化所需灵活性的同时生成高度相关的响应。

业务影响

生成式 AI 评估框架成为 Pushpay AI 功能开发的基石，在三个维度上带来了可衡量的价值：

用户体验：AI 搜索功能将人工导航复杂用户界面的经验用户所需的洞察获取时间从大约 120 秒缩短到 4 秒以下——加速了 15 倍，直接有助于提高事工领导者的生产力和决策速度。此功能使数据洞察民主化，因此不同技术水平的用户无需专业知识即可获取有意义的情报。
开发速度：科学的评估方法改变了优化周期。团队不再争论提示修改，而是现在可以在几分钟内验证更改并衡量特定领域的性能影响，用数据驱动的迭代取代了长时间的讨论。
生产就绪性：使用高性能领域将准确率从 60-70% 提高到 95% 以上，为面向客户的部署提供了所需的定量信心，而该框架的架构支持在其他领域类别中持续完善。

您的 AI 智能体之旅的关键要点

以下是 Pushpay 经验中的关键要点，您可以用于自己的 AI 智能体之旅中。

1/ 从第一天起就以生产为目标进行构建

构建智能体式 AI 系统很简单，但将其扩展到生产环境却充满挑战。开发人员应在概念验证阶段就采取扩展思维，而不是事后才考虑。早期实施稳健的跟踪和评估框架，为从实验到生产提供了清晰的路径。通过使用此方法，团队可以在准确性问题成为障碍之前，系统地识别并解决它们。

2/ 利用 Amazon Bedrock 的高级功能

Amazon Bedrock 提示缓存通过缓存常用的系统提示，显著降低了 token 成本和延迟。对于具有大型、稳定系统提示的智能体来说，此功能对于生产级性能至关重要。

3/ 超越汇总指标

汇总准确率分数有时会掩盖关键的性能差异。通过在领域类别级别评估智能体性能，Pushpay 发现了单个准确性指标无法揭示的弱点。这种细粒度的方法实现了有针对性的优化和知情的发布决策，确保用户只体验到高性能的功能，同时完善其他功能。

4/ 数据安全和负责任的 AI

在开发智能体式 AI 系统时，请从一开始就考虑信息保护和 LLM 安全性问题，遵循 AWS 责任共担模型，因为安全要求从根本上影响架构设计。Pushpay 的客户是教会和信仰组织，他们是敏感信息的保管人——包括牧师关怀对话、财务捐赠模式、家庭困难、祈祷请求等。在此实施示例中，Pushpay 制定了清晰的方法，在其产品生态系统中合乎道德地整合 AI，保持严格的安全标准，以确保教会数据和个人身份信息 (PII) 保持在其安全的合作伙伴生态系统内。数据仅在应用了安全和适当的数据保护后才共享，且绝不用于训练外部模型。要了解有关 Pushpay 在其产品中整合 AI 的标准的更多信息，请访问 Pushpay 知识中心以获取更深入的公司标准回顾。

结论：您通往生产就绪型 AI 智能体的路径

Pushpay 从 60-70% 准确率的原型到 95% 准确率的生产就绪型 AI 智能体的历程表明，构建可靠的智能体式 AI 系统需要的不仅仅是复杂的提示——它需要一种科学的、数据驱动的评估和优化方法。真正的突破不在于 AI 技术本身，而在于实施了一个建立在强大可观测性基础上的全面评估框架，该框架在不同领域提供了对智能体性能的细粒度可见性。这种系统化的方法实现了快速迭代、战略性发布决策和持续改进。

准备好构建您自己的生产就绪型 AI 智能体了吗？

探索 Amazon Bedrock：使用 Amazon Bedrock 开始构建您的智能体
实施 LLM 即裁判：使用本文 LLM-as-a-judge on Amazon Bedrock Model Evaluation 中描述的模式来创建您自己的评估系统
构建您的黄金数据集：开始为您特定的用例整理代表性的查询和预期输出

作者简介

Roger Wang 是 AWS 的高级解决方案架构师。他是一位经验丰富的架构师，在软件行业拥有超过 20 年的经验。他帮助新西兰和全球的软件及 SaaS 公司利用 AWS 的尖端技术来解决复杂的业务挑战。Roger 热衷于弥合业务驱动因素与技术能力之间的差距，并热衷于促进推动产生影响的对话。

Melanie Li 博士是 AWS 驻悉尼的高级生成式 AI 专家解决方案架构师，她的重点是与客户合作，利用最先进的 AI 和机器学习工具构建解决方案。她积极参与亚太及日本 (APJ) 地区的多个生成式 AI 计划，利用大型语言模型 (LLM) 的强大功能。在加入 AWS 之前，李博士曾在金融和零售行业担任数据科学家职位。

Frank Huang 博士是 AWS 驻奥克兰的高级分析专家解决方案架构师。他专注于帮助客户交付高级分析和 AI/ML 解决方案。在整个职业生涯中，Frank 曾在金融服务、Web3、酒店、媒体和娱乐以及电信等多个行业工作。Frank 渴望利用其在云架构、AIOps 和端到端解决方案交付方面的深厚专业知识，帮助客户利用数据和 AI 的力量实现切实的业务成果。

Saurabh Gupta 是 Pushpay 的一名数据科学和 AI 专业人员，驻扎在新西兰奥克兰，专注于实施实用的 AI 解决方案和统计建模。他在机器学习、数据科学和用于数据科学应用的 Python 方面拥有丰富的经验，并在数据库智能体和 AI 实施方面拥有专业经验。在目前的工作之前，他曾在电信、零售和金融服务行业积累经验，在营销分析和客户留存计划方面培养了专业知识。他拥有奥克兰大学统计学硕士学位和印度管理学院加尔各答分校工商管理硕士学位。

Todd Colby 是 Pushpay 的一名高级软件工程师，驻扎在西雅图。他的专业知识集中于利用 AI 演进复杂的遗留应用程序，并将用户需求转化为结构化、高准确性的解决方案。他利用 AI 来提高交付速度，并生成尖端的指标和业务决策工具。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

使用 Amazon Bedrock 构建可靠的智能体式 AI 解决方案：学习 Pushpay 在生成式 AI 评估方面的经验