📢 转载信息
原文作者:Yunfei Bai, Carrie Song, Elad Dwek, Harsh Asnani, Kristine Pearce, and Sung-Ching Lin
我们与大型企业客户和亚马逊团队的合作表明,高风险用例持续受益于先进的大语言模型(LLM)微调和后训练技术。在本文中,我们将展示微调如何帮助亚马逊药房将危险药物错误减少了 33%,全球工程服务部门将人工工作量减少了 80%,以及 A+ 内容的质量评估准确率从 77% 提高到 96%。这些并非是假设性的预测——而是亚马逊团队的生产结果。虽然许多用例可以通过提示工程、检索增强生成(RAG)系统和即用型智能体部署得到有效解决,但我们与亚马逊和大型企业客户的合作揭示了一个一致的模式:每四个高风险应用中就有一个——涉及到患者安全、运营效率或客户信任——需要先进的微调和后训练技术才能达到生产级性能。
本文详细介绍了实现这些成果背后的技术:从基础方法,如监督微调(SFT,即指令调优)和近端策略优化(PPO),到用于人类对齐的直接偏好优化(DPO),再到专为智能体系统定制的前沿推理优化技术,如基于分组的策略优化强化学习(GRPO)、直接优势策略优化(DAPO)和分组序列策略优化(GSPO)。我们将逐一探讨每种方法的演变过程,考察亚马逊的实际应用,在亚马逊云科技(AWS)上展示参考架构,并提供一个基于您的用例需求来选择合适技术的决策框架。
在智能体化AI中,微调的持续相关性
尽管基础模型和智能体框架的能力日益增强,但大约四分之一的企业用例仍然需要先进的微调才能达到必要的性能水平。这些通常是涉及收入或客户信任等高风险、需要领域特定知识、需要大规模企业集成、治理和控制至关重要、业务流程集成复杂或需要多模态支持的场景。追求这些用例的组织报告称,当适当应用先进的微调技术时,转化到生产的比例更高、投资回报率(ROI)更大,以及实现了高达三倍的年同比增长。
面向智能体化AI的LLM微调技术演进
生成式AI的发展见证了模型定制和性能优化技术的几项关键进步。始于使用带标签数据来教会模型遵循特定指令的 SFT,该领域奠定了基础,但在优化复杂推理方面存在局限性。为解决这些局限性,强化学习(RL)通过基于奖励的系统来完善 SFT 过程,从而提供更好的适应性和与人类偏好的对齐。在多种 RL 算法中,PPO 带来了显著的飞跃,它由一个包含价值(评论家)网络和策略网络的工作流程组成。该工作流程包含一个强化学习策略,用于根据奖励模型的指导来调整 LLM 权重。PPO 在复杂环境中具有良好的扩展性,尽管它在稳定性和配置复杂性方面存在挑战。
DPO 在 2024 年初出现,通过消除显式的奖励模型,而是直接使用包含给定提示的首选和被拒绝响应的偏好数据,解决了 PPO 的稳定性问题。DPO 通过比较首选和被拒绝的响应来优化 LLM 权重,使 LLM 能够相应地学习和调整其行为。这种简化的方法获得了广泛采用,主流语言模型将其纳入其训练流程,以实现更好的性能和更可靠的输出。其他替代方法,包括比率优化策略(ORPO)、相对偏好优化(RPO)、身份偏好优化(IPO)、卡尼曼-特沃斯基优化(KTO),它们都是用于人类偏好对齐的 RL 方法。通过结合比较和基于身份的偏好结构,并将优化建立在行为经济学的基础上,这些方法在计算上高效、可解释,并与实际的人类决策过程保持一致。
随着基于智能体的应用在 2025 年变得突出,我们观察到对定制智能体推理模型的需求不断增加,以对领域特定的约束、安全准则和推理模式进行编码,使其与智能体的预期功能(任务规划、工具使用或多步骤问题解决)保持一致。目标是提高智能体在保持连贯计划、避免逻辑矛盾以及针对特定领域用例做出适当决策方面的性能。为满足这些需求,GRPO 被引入以增强推理能力,并在DeepSeek-V1的实现中尤为突出。
GRPO 的核心创新在于其基于分组的比较方法:GRPO 不将单个响应与固定参考进行比较,而是生成一组响应,并根据该组的平均得分来评估每个响应,奖励表现高于平均水平的响应,同时惩罚低于平均水平的响应。这种相对比较机制创造了一种竞争动态,鼓励模型产生更高质量的推理。GRPO 对于改进思维链(CoT)推理特别有效,这是智能体规划和复杂任务分解的关键基础。通过在组级别进行优化,GRPO 捕捉了推理过程中的固有可变性,并训练模型以持续超越其自身的平均性能。
一些复杂的智能体任务可能需要在较长的推理链中进行更精细和清晰的修正,DAPO 通过建立在 GRPO 序列级别奖励的基础上解决了这些用例,它采用了更高的裁剪率(比 GRPO 高约 30%)以鼓励更多样化和探索性的思维过程,实施动态采样以消除意义较小的样本并提高整体训练效率,应用 token 级别策略梯度损失以对冗长的推理链提供更精细的反馈,而不是将整个序列视为单一单元,并结合过长的奖励塑形以阻止过于冗长的响应,后者会浪费计算资源。此外,当智能体用例需要在专家混合(MoE)模型训练中产生长文本输出时,GSPO 通过将优化从 GRPO 的 token 级别重要性权重转移到序列级别来支持这些场景。通过这些改进,新的方法(DAPO 和 GSPO)能够在保持 GRPO 计算效率和适当反馈分辨率的同时,实现更高效和复杂的智能体推理和规划策略。
亚马逊的实际应用
利用前几节中描述的微调技术,经过后训练的 LLM 在智能体化 AI 系统中扮演着两个关键角色。第一个是在更广泛的智能体架构中,用于开发专用的工具使用组件和子智能体。这些经过微调的模型充当领域专家,每个都针对特定功能进行优化。通过在微调过程中纳入领域特定的知识和约束,这些专业组件在其指定的任务中可以实现比通用模型高得多的准确性和可靠性。第二个关键应用是作为核心推理引擎,其中基础模型经过专门调整,以在高度特定的领域中擅长规划、逻辑推理和决策制定。目的是提高模型在保持连贯计划和做出符合逻辑的决策方面的能力——这是任何智能体系统的基本能力。这种结合了微调推理核心和专业化子组件的双重方法,正成为亚马逊中一种有前景的架构,用于从 LLM 驱动的应用发展到智能体系统,并构建能力更强、更可靠的生成式 AI 应用。下表展示了采用先进微调技术的多智能体 AI 编排示例。
| 亚马逊药房 (Amazon Pharmacy) | 亚马逊全球工程服务 (Amazon Global Engineering Services) | 亚马逊 A+ 内容 (Amazon A+ Content) | |
|---|---|---|---|
| 领域 | 医疗保健 | 建筑和设施 | 电子商务 |
| 高风险因素 | 患者安全 | 运营效率 | 客户信任 |
| 挑战 | 药物错误导致的 35 亿美元年成本 | 3 小时以上的检查复核 | 百万级规模的内容质量评估 |
| 技术 | SFT, PPO, RLHF, 先进 RL | SFT, PPO, RLHF, 先进 RL | 基于特征的微调 |
| 关键成果 | 药物错误减少 33% | 人工工作量减少 80% | 77%–96% 的准确率 |
亚马逊医疗服务 (AHS) 在两年前开启了生成式 AI 的征程,当时团队通过基于 RAG 的问答系统来解决客户服务效率问题。使用传统 RAG 与基础模型的初步尝试效果不佳,准确率仅在 60% 到 70% 之间徘徊。突破点出现在他们专门针对制药领域知识微调嵌入模型时,准确率显著提高到 90%,客户支持电话减少了 11%。在用药安全方面,药物说明错误会带来严重的安全风险,纠正成本高达每年 35 亿美元。通过使用数千个专家标注示例对模型进行微调,亚马逊药房创建了一个智能体组件,该组件使用药房逻辑和安全指南来验证药物说明。正如其在《Nature Medicine》出版物中所指出的,这使得“险些发生”的事件减少了 33%。在 2025 年,AHS 正在扩大其 AI 能力,并将这些独立的 LLM 驱动的应用转变为一个整体的多智能体系统,以增强患者体验。这些由微调模型驱动的独立应用在整体智能体架构中起着至关重要的作用,作为领域专家工具来解决制药服务中特定的任务关键功能。
亚马逊全球工程服务 (GES) 团队负责监督全球数百个亚马逊配送中心,他们踏上了一项雄心勃勃的旅程,将生成式 AI 用于其运营中。他们首次涉足该技术,专注于创建一个复杂的问答系统,旨在帮助工程师有效地从庞大的知识库中获取相关的设计信息。该团队的方法是使用 SFT 对基础模型进行微调,这使得准确率(通过语义相似性得分衡量)从 0.64 显著提高到 0.81。为了更好地与主题专家(SME)的反馈保持一致,该团队使用 PPO 结合人类反馈数据对模型进行了进一步的完善,这使得 LLM 裁判得分从 5 分中的 3.9 提高到 4.2,这是一项了不起的成就,转化为领域专家所需的工作量减少了 80%。与亚马逊药房的案例类似,这些经过微调的专业模型将继续作为更广泛的智能体化 AI 系统中的领域专家工具发挥作用。
2025 年,GES 团队通过将智能体化 AI 系统应用于优化其业务流程,进入了未知领域。LLM 微调方法是增强 AI 智能体推理能力的关键机制,它能够将复杂的目标有效地分解为可执行的操作序列,这些序列符合预定义的行为约束和面向目标的结果。它也是促进专业任务执行和针对特定任务性能指标进行优化的关键架构组成部分。
亚马逊 A+ 内容 为每年数亿次提交的丰富产品页面提供支持。A+ 团队需要在规模上评估内容质量——评估一致性、统一性和相关性,而不仅仅是表面缺陷。内容质量直接影响转化率和品牌信任,使其成为一个高风险应用。
遵循亚马逊药房和全球工程服务的架构模式,该团队构建了一个由微调模型驱动的专业评估智能体。他们在 Amazon SageMaker 上对 Nova Lite 应用了基于特征的微调——训练一个轻量级分类器来处理从视觉语言模型(VLM)中提取的特征,而不是更新完整的模型参数。这种方法通过专家精心设计的评分标准提示得到增强,将分类准确率从 77% 提高到 96%。结果是:一个评估数百万内容提交并提供可操作建议的 AI 智能体。这展示了我们成熟度框架中的一个关键原则——技术复杂性应与任务需求相匹配。A+ 用例虽然风险高且规模巨大,但从根本上说是一个分类任务,非常适合这些方法。并非每个智能体组件都需要 GRPO 或 DAPO;为每个问题选择正确的技术才能交付高效、生产级的系统。
用于先进 AI 编排的微调参考架构
尽管微调模型在智能体化 AI 系统中为不同领域和用例服务于各种目的,但智能体的解剖结构在很大程度上保持一致,并且可以通过组件分组来涵盖,如下面的架构图所示。
这种模块化方法采用了许多 AWS 生成式 AI 服务,包括 Amazon Bedrock AgentCore、Amazon SageMaker 和 Amazon Bedrock,这些服务维护了组成智能体的关键分组结构,同时在每个组内提供了各种选项来改进 AI 智能体。
- 面向 AI 智能体的 LLM 定制
构建者可以使用各种 AWS 服务来利用上一节讨论的技术对 AI 智能体的 LLM 进行微调和后训练。如果您在智能体中使用 Amazon Bedrock 上的 LLM,您可以使用多种模型定制方法来微调您的模型。通过低秩适应(LoRA)的参数高效微调(PEFT)进行的蒸馏和 SFT 可用于解决简单的定制任务。对于高级微调,持续预训练(CPT)通过在特定领域的语料库(医疗文献、法律文件或专有技术内容)上进行训练来扩展基础模型的知识,将专业词汇和领域推理模式直接嵌入到模型权重中。在 2025 年 re:Invent 上推出的强化微调(RFT)在 Amazon Bedrock 中,无需大量预标记训练数据即可教会模型理解高质量响应的要素。RFT 支持两种方法:可验证奖励强化学习(RLVR)使用基于规则的评分器来处理客观任务,例如代码生成或数学推理;而基于 AI 反馈的强化学习(RLAIF)则使用基于 AI 的裁判来处理主观任务,例如指令遵循或内容审核。
如果您需要在 AI 智能体的模型定制基础设施上拥有更深入的控制权,Amazon SageMaker AI 提供了一个全面的平台,用于自定义模型开发和微调。Amazon SageMaker JumpStart 通过提供预构建的解决方案,支持一键部署流行的基础模型(Llama、Mistral、Falcon 等)以及端到端的微调笔记本(处理数据准备、训练配置和部署工作流),从而加速了定制过程。Amazon SageMaker 训练作业为执行自定义微调工作流提供了托管基础设施,自动配置 GPU 实例、管理训练执行并在完成后进行清理。这种方法适用于大多数微调场景,其中标准实例配置提供了足够的计算能力,并且训练在作业持续时间内可靠地完成。您可以将 SageMaker 训练作业与自定义 Docker 容器和代码依赖项一起使用,这些依赖项包含任何机器学习(ML)框架、训练库或优化技术,从而能够试验超出托管服务提供的最新方法。
在 2025 年 re:Invent 上,Amazon SageMaker HyperPod 为大规模模型定制引入了两项功能:无检查点训练减少了检查点重启周期,将恢复时间从几小时缩短到几分钟;弹性训练自动将工作负载扩展到使用空闲容量,并在高优先级工作负载达到峰值时释放资源。这些功能建立在 HyperPod 的核心优势之上——具有自动故障恢复能力的弹性分布式训练集群,可用于跨越数千个 GPU 的数周作业。HyperPod 支持 NVIDIA NeMo 和 AWS Neuronx 框架,当训练规模、持续时间或可靠性要求超出基于作业的基础设施在经济上可提供时,它是理想的选择。
在 SageMaker AI 中,对于希望在不管理基础设施的情况下定制模型的构建者来说,2025 年 re:Invent 上推出的Amazon SageMaker AI 无服务器定制提供了一种完全托管的、由 UI 和 SDK 驱动的模型微调体验。此功能提供基础设施管理——SageMaker 根据模型大小和训练需求自动选择和配置适当的计算资源(P5、P4de、P4d 和 G5 实例)。通过 SageMaker Studio UI,您可以使用 SFT、DPO、RLVR 和 RLAIF 等高级技术定制流行的模型(Amazon Nova、Llama、DeepSeek、GPT-OSS 和 Qwen)。您还可以使用SageMaker Python SDK 在 Jupyter 笔记本中运行相同的无服务器定制。无服务器方法提供按 token 计费、自动资源清理、集成的 MLflow 实验跟踪以及无缝部署到 Amazon Bedrock 和 SageMaker 端点。
如果您需要为您的智能体工作流程定制 Amazon Nova 模型,您可以通过食谱并在 Amazon SageMaker AI 上进行训练。它为模型训练、评估和推理部署提供端到端的定制工作流,具有更大的灵活性和控制力来微调 Nova 模型,精确优化超参数,并实施 LoRA PEFT、全秩 SFT、DPO、RFT、CPT、PPO 等技术。对于 Amazon Bedrock 上的 Nova 模型,您还可以使用 SFT 和 RFT 结合推理内容来训练您的 Nova 模型,以捕获中间思考步骤,或者在难以定义确切正确答案时使用基于奖励的优化。如果您有更高级的智能体用例,需要更深度的模型定制,您可以使用 2025 年 re:Invent 上推出的Amazon Nova Forge,从早期模型检查点构建自己的前沿模型,将您的数据集与 Amazon Nova 精心策划的训练数据相结合,并在 AWS 上安全地托管您的自定义模型。
- AI 智能体开发环境和 SDK
开发环境是开发人员在部署前编写、测试和迭代智能体逻辑的地方。开发人员使用集成开发环境(IDE),例如 SageMaker AI Studio(与代码编辑器相比的 Jupyter 笔记本)、Amazon Kiro 或本地机器上的 IDE(如 PyCharm)。智能体逻辑是使用专门的 SDK 和框架实现的,这些框架抽象了编排的复杂性——Strands 提供了一个专为多智能体系统构建的 Python 框架,提供声明性智能体定义、内置状态管理以及处理 LLM API 调用、工具调用协议、错误恢复和对话管理的低级细节的原生 AWS 服务集成。通过这些开发工具处理 LLM API 调用的底层细节,开发人员可以专注于业务逻辑,而不是基础设施设计和维护。
- AI 智能体部署和操作
在完成 AI 智能体开发并准备投入生产部署后,您可以使用 Amazon Bedrock AgentCore 来处理智能体的执行、内存、安全性和工具集成,而无需管理基础设施。Bedrock AgentCore 提供了一套集成服务,包括:
-
- AgentCore Runtime 提供专用的环境,抽象了基础设施管理,而基于容器的替代方案(SageMaker AI 作业、AWS Lambda、Amazon Elastic Kubernetes Service (Amazon EKS) 和 Amazon Elastic Container Service (Amazon ECS))为自定义需求提供了更多控制。本质上,运行时是您精心设计的智能体代码与真实用户相遇并在规模上实现业务价值的地方。
- AgentCore Memory 使您的 AI 智能体能够记住过去的交互,从而能够提供更智能、更具上下文感知能力和更个性化的对话。它提供了一种直接而强大的方式来处理短期上下文和长期知识保留,而无需构建或管理复杂的基础设施。
- 通过 AgentCore Gateway,开发人员可以大规模构建、部署、发现和连接到工具,提供对工具使用模式的可观测性、对失败调用的错误处理,以及与身份系统的集成,以便代表用户访问工具(使用 OAuth 或 API 密钥)。团队可以更新工具后端、添加新功能或修改身份验证要求,而无需重新部署智能体,因为网关架构将工具实现与智能体逻辑解耦——随着业务需求的发展保持灵活性。
- AgentCore Observability 帮助您在生产环境中跟踪、调试和监控智能体性能。它通过访问由 Amazon CloudWatch 提供支持的仪表板以及使用 OpenTelemetry (OTEL) 协议标准对会话计数、延迟、持续时间、Token 使用量和错误率等关键指标进行的遥测,提供对智能体运行性能的实时可见性。
- LLM 和 AI 智能体评估
当您的微调 LLM 驱动的 AI 智能体在生产环境中运行时,持续评估和监控您的模型和智能体以确保高质量和高性能非常重要。许多企业用例需要自定义评估标准,这些标准编码了领域专业知识和业务规则。对于亚马逊药房的药物说明验证项目...
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区