评估AI智能体：亚马逊构建智能体系统过程中的实战经验教训-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/evaluating-ai-agents-real-world-lessons-from-building-agentic-systems-at-amazon/

原文作者：Yunfei Bai, Allie Colin, Kashif Imran, and Winnie Xiong

生成式AI行业正经历一场重大变革，已从使用大型语言模型（LLM）驱动的应用转向智能体AI系统（Agentic AI systems），这标志着AI能力构建和部署方式的根本性转变。虽然早期的生成式AI应用主要依赖LLM直接生成文本和响应提示，但行业已经从这些静态的、提示-响应范式演进到自主智能体框架，以构建能够进行工具编排、迭代问题解决和在生产环境中适应性任务执行的动态、目标导向系统。

我们在亚马逊内部见证了这一演变；自2025年以来，亚马逊各组织内部构建了数千个智能体。虽然单一模型的基准测试是评估LLM驱动应用中单个LLM性能的关键基础，但智能体AI系统需要评估方法的根本性转变。新的范式不仅评估底层模型的性能，还评估完整系统中涌现出的行为，包括工具选择决策的准确性、多步推理过程的连贯性、内存检索操作的效率以及在生产环境中跨任务完成的总体成功率。

在本文中，我们提出了一个全面的亚马逊智能体AI系统评估框架，它通过两个核心组件解决了亚马逊智能体AI应用在复杂性上的挑战：一个用于标准化跨不同智能体实现的评估程序的通用评估工作流，以及一个在Amazon Bedrock AgentCore 评估中提供系统化测量和指标的智能体评估库，此外还有亚马逊特定于用例的评估方法和指标。我们还分享了在与多个亚马逊团队接触过程中收集到的最佳实践和经验，为面临类似挑战的AWS开发者社区提供了可行的见解，以便在他们自己的业务环境中评估和部署智能体AI系统。

亚马逊的AI智能体评估框架

当构建者设计、开发和评估AI智能体时，他们会面临重大挑战。与仅对孤立提示生成响应的传统LLM驱动应用不同，AI智能体通过多步推理、工具使用和跨多轮交互的适应性决策自主追求目标。传统的LLM评估方法将智能体系统视为黑盒，只评估最终结果，未能提供足够的洞察力来确定AI智能体失败的原因或查明根本原因。尽管行业中提供了多种特定的评估工具，但构建者必须在它们之间进行导航，并花费大量手动工作来整合结果。此外，虽然像Strands Agents、LangChain和LangGraph等智能体开发框架内置了评估模块，但构建者更倾向于一种框架无关的评估方法，而不是局限于单一框架内的方法。

此外，AI智能体中强大的自我反思和错误处理需要对智能体如何在推理、工具使用、内存处理和行动执行的整个生命周期中检测、分类和从故障中恢复进行系统评估。例如，评估框架必须衡量智能体识别各种失败场景的能力，如推理模型的计划不当、无效的工具调用、格式错误的参数、意外的工具响应格式、身份验证失败和内存检索错误。生产级的智能体必须在遇到异常后，表现出一致的错误恢复模式和维持用户交互连贯性的弹性。

为满足这些需求，在生产环境中大规模部署的AI智能体需要持续监控和系统评估，以便及时检测和缓解智能体衰退和性能下降。这要求智能体评估框架精简端到端流程，并提供近乎实时的问题检测、通知和问题解决能力。最后，纳入(HITL)流程对于审计评估结果至关重要，有助于确保系统输出的可靠性。

为应对这些挑战，我们提出了一个整体性的智能体AI评估框架，如下图所示。该框架包含两个关键组件：一个自动化AI智能体评估工作流和一个AI智能体评估库。

自动化AI智能体评估工作流通过四个步骤驱动整体评估方法。

第 1 步：用户定义用于评估的输入，通常是来自智能体执行的跟踪文件。这些可以是智能体完成任务后收集的离线跟踪文件，通过统一的API访问点上传到框架，或者是在线跟踪文件，用户可以在其中定义评估维度和指标。

第 2 步：使用AI智能体评估库自动生成默认的和用户定义的评估指标。该库中的方法在以下列表中介绍。

第 3 步：评估结果通过Amazon Simple Storage Service (Amazon S3) 存储桶或仪表板共享，该仪表板可视化智能体跟踪的可观测性和评估结果。

第 4 步：通过智能体性能审计和监控分析结果。构建者可以定义自己的规则，在智能体性能下降时发送通知，并采取行动解决问题。构建者还可以启用HITL机制，安排对智能体跟踪子集和评估结果的定期人工审计，从而提高智能体质量和性能的一致性。

AI智能体评估库在三个层次上运行：计算和生成指标以评估智能体的最终输出、评估各个智能体组件，以及衡量支持该智能体的底层LLM的性能。

底层：对多个基础模型进行基准测试，以选择支持AI智能体的适当模型，并确定不同模型如何影响智能体的总体质量和延迟。
中间层：评估智能体组件的性能，包括意图检测、多轮对话、记忆、LLM推理和规划、工具使用等。例如，中间层确定智能体是否正确理解用户意图，LLM如何通过思维链（CoT）推理驱动智能体工作流规划，工具选择和执行是否与智能体计划保持一致，以及计划是否成功完成。
上层：评估智能体的最终响应、任务完成情况，以及智能体是否满足用例中定义的目标。它还涵盖总体责任和安全、成本以及客户体验影响。

Amazon Bedrock AgentCore 评估提供自动化的评估工具，用于衡量您的智能体或工具执行特定任务、处理边缘案例以及在不同输入和上下文之间保持一致性的效果。在智能体评估库中，我们根据AgentCore评估的内置配置、评估器和指标，为智能体的最终响应及其组件提供了一套预定义的评估指标。我们根据亚马逊的异构场景复杂性和应用特定要求，进一步扩展了评估库，加入了专门设计的指标。库中的主要指标包括：

最终响应质量：
- 正确性：AI助手对给定任务的响应在事实上的准确性和正确性。
- 忠实度：AI助手响应是否与对话历史保持一致。
- 有用性：AI助手响应在适当解决查询和向其目标进展方面对用户的帮助程度。
- 响应相关性：AI助手响应解决特定问题或请求的程度。
- 简洁性：AI助手传达信息的效率，例如响应是否适当简短但未遗漏关键信息。
任务完成：
- 目标成功：AI助手是否在对话会话中成功完成了所有用户目标。
- 目标准确性：将输出与地面实况进行比较。
工具使用：
- 工具选择准确性：AI助手是否为给定情况选择了适当的工具。
- 工具参数准确性：AI助手在进行工具调用时是否正确使用了上下文信息。
- 工具调用错误率：AI助手进行工具调用时失败的频率。
- 多轮函数调用准确性：是否调用了多个工具，以及工具调用的正确顺序频率。
内存：
- 上下文检索：评估从内存中为给定查询找到信息的准确性，并根据相似性或排序优先处理最相关的内容，平衡精度和召回率。
多轮：
- 主题遵循分类：如果多轮对话包含多个主题，评估对话在交互过程中是否保持在预定义域和主题内。
- 主题遵循拒绝：确定AI智能体是否拒绝回答关于某个主题的问题。
推理：
- 基础准确性 (Grounding accuracy)：模型是否理解任务，是否适当选择工具，以及CoT是否与提供的上下文和外部工具返回的数据保持一致。
- 忠实度分数：衡量推理过程中的逻辑一致性。
- 上下文分数：智能体采取的每一步是否基于上下文基础。
责任和安全：
- 幻觉：输出是否与既定知识、可验证数据、逻辑推断保持一致，或是否包含任何不合理、误导性或完全虚构的元素。
- 毒性：输出是否包含有害、冒犯性、不尊重或提倡负面态度的语言、建议或态度。这包括可能具有攻击性、贬低性、偏执性或无建设性目的的过度批评的内容。
- 有害性：AI助手响应中是否存在潜在的有害内容，包括侮辱、仇恨言论、暴力、不当色情内容和刻板印象。

请参阅AgentCore 评估模板以获取其他智能体输出质量指标，或了解如何创建根据您的特定用例和评估要求量身定制的自定义评估器。

评估亚马逊使用的真实世界智能体系统

在过去的几年里，亚马逊一直在努力推进其构建智能体AI应用的方法，以应对复杂的业务挑战，简化业务流程，提高运营效率并优化业务成果——从早期的实验转向跨多个业务部门的生产规模部署。这些智能体AI应用在企业规模上运行，并部署在AWS基础设施上，改变了亚马逊全球运营中工作完成的方式。在本节中，我们介绍亚马逊的几个真实世界的智能体AI用例，以展示亚马逊团队如何使用上一节中讨论的框架，通过整体评估来提高AI智能体的性能。

评估亚马逊购物助手AI智能体的工具使用情况

为了向亚马逊消费者提供顺畅的购物体验，亚马逊购物助手可以与底层亚马逊系统的众多API和Web服务无缝交互，如下所示。AI智能体需要为底层亚马逊系统引入数百甚至数千个工具，以与消费者进行长期的多轮对话。智能体利用这些工具提供个性化体验，包括客户画像、产品和库存发现以及订单下达。然而，手动将如此多的企业API和Web服务引入AI智能体是一个繁琐的过程，通常需要数月才能完成。

将遗留API和Web服务转换为智能体兼容工具，需要系统性地定义API和Web服务端点的结构化Schema和语义描述，使智能体的推理和规划机制能够在任务执行期间准确识别和选择上下文合适的工具。定义不佳的工具Schema和不精确的语义描述会导致智能体运行时工具选择出错，从而调用不相关的API，不必要地扩展上下文窗口，增加推理延迟，并通过冗余的LLM调用升级计算成本。为应对这些挑战，亚马逊为工具Schema和描述的正式化定义了跨组织标准，创建了一个治理框架，规定了所有参与工具开发和智能体集成构建团队的强制合规要求。这项标准化工作为工具接口、参数定义、能力描述和使用约束设定了统一的规范，有助于确保跨不同组织单元开发的工具保持一致的结构模式和语义清晰度，从而产生可靠的智能体-工具交互。所有参与工具开发和智能体集成的构建团队都必须遵守这些架构规范，这些规范规定了工具签名、输入验证Schema、输出合约和人类可读文档的标准格式。这有助于确保企业智能体系统中工具表示的一致性。此外，手动为数百或数千个工具定义Schema和描述是一项重大的工程负担，当需要协调多个API来完成复合任务时，复杂性会显著升级。亚马逊构建者实施了一个API自注册系统，该系统利用LLM自动生成标准化的工具Schema和描述。这大大提高了将大量API和服务集成到智能体兼容工具的效率，加速了集成时间并减少了手动工程开销。为评估API集成完成后工具选择和工具使用情况，亚马逊团队创建了用于回归测试的黄金数据集。数据集是利用LLM从用户查询的历史API调用日志中合成生成的。使用预定义的工具选择和工具使用指标，如工具选择准确性、工具参数准确性和多轮函数调用准确性，亚马逊构建者可以系统地评估购物助手AI智能体正确识别适当工具、使用准确值填充其参数以及在对话轮次中保持连贯的工具调用序列的能力。随着智能体的不断发展，快速可靠地将新API作为工具集成到智能体中并评估工具使用性能变得越来越关键。在生产环境中对智能体的功能可靠性进行客观评估，有效地降低了开发开销，同时在智能体AI应用中保持了稳健的性能。

评估亚马逊客户服务AI智能体的用户意图检测

在亚马逊的客户服务领域，AI智能体在处理客户咨询和解决问题方面发挥着重要作用。这些系统的核心在于一种关键能力：一个利用其推理模型准确检测客户意图的编排AI智能体，这决定了客户的查询是否被正确理解并路由到由智能体工具或子智能体实现的适当的专业解析器，如下所示。意图检测的准确性至关重要。当客户服务智能体误解客户意图时，可能会引发一系列问题：查询被错误地路由到错误的专业解析器，客户收到不相关的响应，并且挫败感会增加。这会影响客户体验，并导致由于更多客户寻求人工干预而增加的运营成本。

为评估智能体在意图检测方面的推理能力，亚马逊团队开发了一个LLM模拟器，该模拟器使用LLM驱动的虚拟客户角色来模拟多样化的用户场景和交互。评估主要集中在编排智能体生成的意图的正确性以及路由到正确的子智能体。模拟数据集包含一组从匿名历史客户交互中收集的用户查询和地面实况意图对。使用模拟器，编排智能体根据模拟数据集中的用户查询生成意图。通过将智能体响应意图与地面实况意图进行比较，我们可以验证智能体生成的意图是否符合地面实况。

除了意图正确性之外，评估还涵盖了任务完成——即智能体的最终响应和意图解析——作为客户服务任务的最终目标。对于多轮对话，我们还纳入了主题遵循分类和主题遵循拒绝的指标，以帮助确保对话的连贯性和用户体验质量。随着AI客户服务系统的不断发展，对用户意图检测进行强大的智能体推理评估的重要性日益增加，其影响超出了即时的客户满意度。它还有助于优化客户服务运营效率和服务交付成本，从而使AI投资回报最大化。

评估亚马逊的多智能体系统

随着企业越来越多地面临复杂的业务环境，从跨职能工作流编排到不确定性下的实时决策制定，亚马逊团队正逐步采用多智能体系统架构，将单体AI解决方案分解为专业化、协作的智能体，使其能够在规模上进行分布式推理、动态任务分配和适应性问题解决。一个例子是亚马逊卖家助手AI智能体，它包含了多个AI智能体之间的协作，如下面的流程图所示。

智能体工作流从LLM规划器和任务编排器开始，接收用户请求，将复杂任务分解为专门的子任务，并根据其能力和当前工作负载，智能地将每个子任务分配给最合适的底层智能体。底层智能体然后自主运行，通过使用其专业工具、推理能力和领域知识来执行分配的任务，而无需编排器的持续监督。任务完成后，专业智能体向编排智能体报告，报告任务状态更新、完成确认、中间结果，或在遇到超出其操作范围的情况时发出升级请求。编排智能体汇总这些响应，监控整体进度，处理子任务之间的依赖关系，并将集体输出综合成一个连贯的最终结果，以解决原始用户请求。为评估这种多智能体协作过程，评估工作流同时考虑了个体智能体性能和整体集体系统动态。除了评估整体任务执行质量和专业智能体在任务完成、推理、工具使用和内存检索方面的性能外，我们还需要衡量智能体间通信模式、协调效率和任务交接准确性。为此，亚马逊团队使用规划分数（成功将子任务分配给子智能体）、通信分数（子任务完成的智能体间通信消息）和协作成功率（成功完成子任务的百分比）等指标。在多智能体系统评估中，由于复杂性增加和自动化指标可能无法捕获的意外涌现行为的可能性，HITL变得至关重要。评估工作流中的人工干预为评估智能体间通信以识别特定边缘案例中的协调失败、评估智能体专业化的适当性以及任务分解是否与智能体能力保持一致、验证智能体产生矛盾建议时的潜在冲突解决策略等方面提供了必要的监督。它还有助于确保多个智能体共同做出决策时的逻辑一致性，以及集体智能体行为是否服务于预期的业务目标。这些都是仅通过自动化指标难以量化的维度，但对于生产部署的成功至关重要。

经验教训和最佳实践

通过与在生产环境中部署智能体AI系统的亚马逊产品和工程团队的广泛接触，我们确定了关键的经验教训，并建立了最佳实践，以应对大规模评估自主智能体架构的独特挑战。

跨多个维度的整体评估：智能体应用的评估必须超越传统的准确性指标，涵盖一个全面的评估框架，涵盖智能体质量、性能、责任和成本。质量评估包括衡量跨不同场景的推理连贯性、工具选择准确性和任务完成率。性能评估捕获生产工作负载下的延迟、吞吐量和资源利用率。责任评估涉及安全性、毒性、偏差缓解、幻觉检测和护栏，以符合组织政策和监管要求。成本分析量化了直接费用，包括模型推理、工具调用、数据处理，以及间接成本，如人力和错误补救。这种多维方法有助于确保跨平衡权衡的整体优化。
用例和应用特定的评估：除了前几节讨论的标准指标外，应用特定的评估指标也有助于整体应用评估。例如，客户服务应用需要客户满意度分数、首次联系解决率和情感分析分数等指标来衡量最终业务成果。这种方法需要与领域专家密切合作，以定义有意义的成功标准，定义适当的指标，并创建反映真实世界操作复杂性的评估数据集，以完成评估过程。
人机协作（HITL）作为关键评估组成部分：如多智能体系统评估案例中所述，HITL对于高风险决策场景是不可或缺的。它提供了对智能体推理链、多步工作流的连贯性以及智能体行为与业务需求一致性的基本评估。HITL还有助于为构建黄金测试数据集提供地面实况标签，并校准LLM-作为-判断器（LLM-as-a-judge）在自动评估器中以符合人类偏好。
生产环境中的持续评估：保持质量至关重要，因为部署前的评估可能无法完全捕捉性能特征。此外，生产评估会监控跨不同用户行为、使用模式和部署前未代表的边缘案例的真实世界性能，以识别随时间推移的性能下降情况。您可...

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

评估AI智能体：亚马逊构建智能体系统过程中的实战经验教训