目 录CONTENT

文章目录

Amazon Nova 的强化微调(RFT):通过反馈教导人工智能

Administrator
2026-02-27 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/reinforcement-fine-tuning-for-amazon-nova-teaching-ai-through-feedback/

原文作者:Bharathan Balaji, Chakra Nagarajan, Anupam Dewan, and Vignesh Radhakrishnan


基础模型(Foundation models)为通用任务提供了令人印象深刻的开箱即用性能,但许多组织需要模型来理解其业务知识。当构建需要领域特定专业知识、执行通信风格、优化代码生成、金融推理或确保遵守行业法规等专业任务的应用程序时,模型定制可以帮助您弥合通用人工智能与您的特定业务需求之间的差距。挑战在于如何有效地定制。传统的监督微调(supervised fine-tuning, SFT)可以带来结果,但前提是您需要数千个精心标记的示例,这些示例不仅展示了正确的最终答案,还展示了达到该答案的完整推理路径。对于许多实际应用,特别是那些存在多种有效解决方案路径的任务,创建这些详细的分步演示有时既昂贵又耗时。

在本文中,我们将探讨 Amazon Nova 模型的强化微调(Reinforcement Fine-Tuning, RFT),这是一种强大的定制技术,它通过评估而非模仿来学习。我们将介绍 RFT 的工作原理,以及何时使用它而不是监督微调,介绍从代码生成到客户服务的真实世界应用,并探讨从完全托管的 Amazon Bedrock 到使用 Nova Forge 进行多轮智能体工作流程的实施选项。您还将学习有关数据准备、奖励函数设计和实现最佳实践的实用指南,以获得最佳结果。

一种新的范式:通过评估而非模仿进行学习

如果可以教汽车不仅学习地图上的所有路径,还能学会在走错路时如何导航,那会怎么样?这就是我们非常期待在 Amazon Nova 模型中引入的 RFT 的核心思想。RFT 将范式从模仿学习转变为评估学习。您无需提供数千个标记示例,而是提供提示(prompts),并通过测试用例、可验证的结果或质量标准来定义什么是正确的最终答案。然后,模型通过迭代反馈学习以优化这些标准,发现自己通往正确解决方案的路径。

RFT 通过自动验证输出来支持代码生成和数学推理的模型定制,无需提供详细的分步推理过程。我们已在我们的 AI 服务中提供了 RFT,以便在您 AI 旅程的任何阶段与您会合:从 Amazon Bedrock 中完全托管的体验开始,通过 SageMaker 训练作业获得更多控制权,通过 SageMaker HyperPod 扩展到先进的基础设施,或者使用 Nova Forge 进行多轮对话和自定义强化学习环境来解锁前沿功能。

2025 年 12 月,亚马逊推出了 Nova 2 系列——亚马逊首批内置推理功能的模型。与直接生成响应的传统模型不同,像 Nova 2 Lite 这样的推理模型会进行逐步问题分解,在产生最终答案之前执行中间思考步骤。这种扩展的思考过程模仿了人类解决复杂分析任务的方式。当与 RFT 结合时,这种推理能力变得特别强大,RFT 不仅可以优化模型产生的答案,还可以优化其推理问题的方式,教它发现更高效的推理路径,同时减少令牌使用量。截至今天,RFT 仅支持纯文本的使用案例。

真实世界用例

在您可以定义和验证正确结果,但大规模创建详细的分步解决方案演示不切实际的情况下,RFT 非常出色。以下是一些 RFT 可以成为一个好选择的用例:

  • 代码生成:您希望代码不仅正确,而且高效、可读,并能优雅地处理边缘情况,这些都是可以通过测试执行和性能指标以编程方式验证的质量。
  • 客户服务:您需要评估回复是否有所帮助,是否保持您的品牌声音,以及是否针对每种情况都语气得当。这些是无法简化为简单规则的判断,但可以由根据您的沟通标准训练的 AI 裁判进行评估。
  • 其他应用:内容审核(其中上下文和细微差别很重要);多步推理任务,如财务分析或法律文件审查;以及工具使用(您需要教模型何时以及如何调用 API 或查询数据库)。在每种情况下,即使您无法轻松地以规模化方式演示分步推理过程,您也可以定义和验证正确的输出。
  • 探索性强的难题:游戏和策略、资源分配和调度等用例,受益于模型使用不同方法并从反馈中学习的情况。
  • 标记数据有限的场景:标记数据集有限的用例,例如具有少量专家注释示例的领域特定应用、没有既定解决方案模式的新问题领域、标记成本高昂的任务(医疗诊断、法律分析)。在这些用例中,RFT 有助于优化从奖励函数计算出的奖励。

RFT 的工作原理

RFT 通过一个三阶段的自动化过程运行(如图 1 所示):

第 1 阶段:响应生成——执行器模型(您正在定制的模型)接收来自训练数据集的提示,并为每个提示生成多个响应——通常是 4 到 8 个变体。这种多样性为系统提供了一系列响应来进行评估和学习。

第 2 阶段:奖励计算——系统不是将响应与标记示例进行比较,而是使用奖励函数来评估质量。您有两个选择:

  • 通过可验证奖励进行强化学习 (RLVR):作为 AWS Lambda 函数实现的基于规则的评分器,非常适合代码执行或数学问题验证等客观任务,您可以对正确性进行编程检查。
  • 通过 AI 反馈进行强化学习 (RLAIF):根据您配置的标准评估响应的基于 AI 的裁判,非常适合主观任务,例如评估有用性、创造力或对品牌声音的遵守程度。

第 3 阶段:执行器模型训练——系统使用评分后的提示-响应对,通过强化学习算法(如针对语言模型的优化版本 Group Relative Policy Optimization (GRPO))来训练您的模型。模型学习最大化生成高奖励响应的概率,同时最小化低奖励响应的概率。这个迭代过程会持续进行,直到模型达到您期望的性能。

Figure 1: Illustration of how single pass of RFT works

图 1:RFT 单次通过如何工作的说明

RFT 的主要优势

以下是 RFT 的主要优势:

  • 无需庞大的标记数据集——RFT 只需提示以及一种评估质量的方法。如果使用 Bedrock RFT,您甚至可以利用现有的 Bedrock API 调用日志作为 RFT 数据,从而无需创建专门的数据集。
  • 针对可验证结果进行优化——与需要明确演示如何达到正确答案的监督微调不同,RFT 针对您可以定义和验证正确结果的任务进行了优化,尽管可能存在多种有效的推理路径。
  • 减少令牌使用量——通过优化模型的推理过程,RFT 可以减少完成任务所需的令牌数量,从而降低生产成本和延迟。
  • 安全且受监控——在定制过程中,您的专有数据永远不会离开 AWS 的安全环境,并且您可以获得训练指标的实时监控,以跟踪进度并确保质量。

实施层级:从简单到复杂

亚马逊为使用 Nova 模型的强化微调提供了多种实施路径,范围从完全托管的体验到可定制的基础设施。通过遵循这种分层方法,您可以将 RFT 实施与您的特定需求、技术专长和所需的控制级别相匹配。

Amazon Bedrock

Amazon Bedrock 提供了 RFT 的切入点,提供了一种完全托管的体验,所需的机器学习专业知识最少。通过 Amazon Bedrock 控制台或 API,您只需点击几下即可上传训练提示、将奖励函数配置为 AWS Lambda,然后启动强化微调作业。Bedrock 会自动处理所有基础设施配置、训练编排和模型部署。此方法适用于您需要优化特定标准而无需管理基础设施的简单用例。简化的工作流程使没有专用机器学习工程师的团队也能使用 RFT,同时仍能提供强大的定制功能。Bedrock RFT 支持 RLVR(基于规则的奖励)和 RLAIF(基于 AI 的反馈)方法,并提供内置的监控和评估工具来跟踪模型的改进。要开始使用,请参阅 Amazon Nova RFT GitHub 存储库。

Amazon SageMaker Serverless Model Customization

Amazon SageMaker AI 的无服务器模型定制专为那些已准备好从提示工程和 RAG 转向 LLM 微调以实现高影响力、专业用例的 ML 从业人员而设计。无论是提高复杂推理能力、领域特定代码生成,还是优化包含规划、工具调用和反思的智能体工作流程的 LLM,SageMaker 的产品消除了阻碍实验的传统基础设施和专业知识障碍。其核心是,该服务将 GRPO 结合 RLVR/RLAIF 等先进的强化学习技术带给开发人员,而无需复杂的 RL 设置,并提供超越基本准确性指标的全面评估套件。作为补充,AI 辅助的合成数据生成、集成的实验跟踪以及完整的谱系和审计跟踪支持,完善了一个生产级定制管道。部署灵活性允许团队将微调的模型发布到 SageMaker 端点、Amazon Bedrock 或自定义基础设施,使其成为寻求加速模型定制周期并释放 Amazon Nova 等模型在现实世界应用中全部潜力的团队的一个引人注目的端到端无服务器解决方案。

SageMaker 训练作业

对于需要更多控制训练过程的团队来说,Amazon SageMaker 训练作业提供了一个灵活的中间地带,具有托管计算能力,并可以调整多个超参数。您还可以保存中间检查点并使用它们来创建迭代训练工作流程,例如将监督微调(SFT)和 RFT 作业链接起来,以逐步完善您的模型。您可以灵活地在 LoRA 和全秩训练方法之间进行选择,并完全控制超参数。对于部署,您可以选择 Amazon Bedrock 进行完全托管的推理,或选择 Amazon SageMaker 端点,您可以在其中控制实例类型、批处理和性能调优。此级别非常适合那些需要超越 Amazon Bedrock 的定制但不需要专用基础设施的 ML 工程师和数据科学家。SageMaker 训练作业还与更广泛的 Amazon SageMaker AI 生态系统无缝集成,用于实验跟踪、模型注册表和部署管道。Amazon Nova RFT 在 SageMaker 训练作业上使用 YAML 配置文件来配置训练作业。您可以从 SageMaker HyperPod 菜谱存储库中获取基础菜谱。

最佳实践:

  1. 数据格式:使用 JSONL 格式,每行一个 JSON 对象。
  2. 参考答案:包含奖励函数将与之比较以计算奖励的模型预测的基准值。
  3. 从小处着手:首先使用 100 个示例来验证您的方法,然后再扩展。
  4. 自定义字段:添加奖励函数评估所需的任何元数据。
  5. 奖励函数:设计时要考虑速度和可扩展性,并使用 AWS Lambda。
  • 要开始使用 Amazon SageMaker 训练作业上的 Amazon Nova RFT,请参阅 SFTRFT 笔记本

SageMaker HyperPod

SageMaker HyperPod 为大规模 RFT 工作负载提供企业级基础设施,采用持久的基于 Kubernetes 的集群,这些集群针对分布式训练进行了优化。此级别在 SageMaker 训练作业中所有可用功能的基础上构建——包括检查点管理、迭代训练工作流程、LoRA 和全秩训练选项以及灵活的部署——但规模更大,配备了专用的计算资源和专门的网络配置。HyperPod 中的 RFT 实现通过最先进的异步强化学习算法优化了更高的吞吐量和更快的收敛速度,其中推理服务器和训练服务器独立全速工作。这些算法会考虑这种异步性,并实施用于训练基础模型的前沿技术。HyperPod 还提供高级数据过滤器,为您提供对训练过程的细粒度控制,并减少崩溃的可能性。您可以对超参数进行细粒度控制,以最大限度地提高吞吐量和性能。HyperPod 专为需要大规模推动 RFT 界限的 ML 平台团队和研究组织而设计。Amazon Nova RFT 使用 YAML 配置文件来配置训练作业。您可以从 SageMaker HyperPod 菜谱存储库中获取基础菜谱。

  • 有关更多信息,请参阅 RFT 基于评估,以开始使用 Amazon SageMaker HyperPod 上的 Amazon Nova RFT 作业。

Nova Forge

Nova Forge 为构建复杂的智能体应用程序的 AI 研究团队和从业人员提供了先进的强化反馈训练功能。通过摆脱单轮交互和 Lambda 超时限制,Nova Forge 可以在您自己的 VPC 中运行的自定义扩展环境中实现复杂的多轮工作流程。这种架构为您提供了对轨迹生成、奖励函数以及与训练和推理服务器能力的直接交互的完全控制,这对于标准 RFT 级别无法支持的前沿 AI 应用至关重要。Nova Forge 使用 Amazon SageMaker HyperPod 作为训练平台,同时提供其他功能,例如与 Amazon Nova 策划的数据集进行数据混合以及中间检查点。

主要特点:

  • 多轮对话支持
  • 执行时间超过 15 分钟的奖励函数
  • 额外的算法和调优选项
  • 自定义训练配方修改
  • 最先进的 AI 技术

此进展中的每个级别都建立在前一个级别之上,随着 RFT 需求的演变,提供了一个自然的增长路径。从 Amazon Bedrock 开始进行初始实验,随着您完善方法转向 SageMaker 训练作业,然后对于专业用例,转向 HyperPod 或使用 HyperPod 的 Nova Forge。这种灵活的架构确保您可以根据当前需求所需的复杂程度实施 RFT,同时在这些需求增长时提供明确的前进路径。

系统化的强化微调方法 (RFT)

强化微调 (RFT) 通过结构化的、基于奖励的学习迭代,逐步改进预训练模型。以下是实施 RFT 的系统方法。

第 0 步:评估基线性能

在开始 RFT 之前,请评估您的模型是否达到了最低可接受水平。RFT 要求模型在训练期间的多次尝试中至少能够产生一个正确的解决方案。

关键要求:分组相对策略需要跨多次滚动的输出多样性(通常每次提示 4-8 次生成)才能有效学习。模型需要在多次尝试中至少有一次成功或至少有一次失败,以便它可以区分正例和负例以进行强化。如果所有滚动都持续失败,则模型没有可供学习的积极信号,使得 RFT 无效。在这种情况下,您应该首先使用监督微调 (SFT) 来建立基本任务能力,然后再尝试 RFT。在失败模式主要归因于知识不足的情况下,SFT 可能是更有效的起点,而如果失败模式是由于推理质量不佳,那么 RFT 可能是优化推理质量的更好选择。 

第 1 步:确定正确的数据集和奖励函数

选择或创建一个提示数据集,这些提示代表模型将在生产中遇到的场景。更重要的是,设计一个奖励函数,该函数:

  • 清晰地遵循您的评估指标所追踪的内容:您的奖励函数应直接衡量您在生产中关心的相同质量。
  • 捕获您对模型的期望:无论是正确性、效率、风格遵守,还是这些目标的组合。

第 2 步:调试和迭代

在整个训练过程中监控训练指标和模型滚动

需要关注的训练指标:

  • 奖励趋势随时间的变化(通常应增加)
  • 与基础模型的策略分歧(KL)
  • 随时间变化的生成长度

模型滚动分析:

  • 定期对生成的输​​出进行采样和审查
  • 跟踪模型行为在训练步骤中的演变情况

常见问题和解决方案

可通过奖励函数直接解决的问题:

  • 格式正确性:对格式错误的输出添加奖励惩罚
  • 语言混合:惩罚不需要的语言切换
  • 生成长度:根据用例奖励适当的响应长度

需要数据集/提示改进的问题:

  • 覆盖范围有限:创建更全面的提示集以涵盖各种难度
  • 探索多样性不足:确保提示允许模型探索各种场景和边缘情况

RFT 是一个迭代过程。利用每次训练运行获得的见解来完善您的奖励函数、扩展您的提示集或在下一次迭代之前调整超参数。

RFT 的关键特性及如何选择

本节通过系统分解 RFT 的核心组件和功能,概述了 RFT 的关键特性,以实现有效的模型优化。

全秩与 LoRA 对比

RFT 支持两种具有不同资源权衡的训练方法。全秩训练在训练期间更新所有模型参数,提供最大的模型适应潜力,但需要更多的计算资源和内存。低秩适应 (LoRA) 通过轻量级适配器层更新一小部分参数,同时使大部分模型保持冻结状态,从而提供参数高效的微调。 LoRA 需要的计算资源明显减少,产生的模型工件也更小。重要的是,在 Amazon Bedrock 中部署的 LoRA 模型支持按需推理——您无需专用实例,只需为您使用的令牌付费。这使得 LoRA 成为一个出色的默认起点:您可以快速迭代和验证定制模型,而无需前期基础设施成本。随着流量需求的增长或高性能要求证明投资是合理的,您可以过渡到使用专用预留吞吐量实例进行全秩训练,以实现最大的吞吐量和最低的延迟。

推理与非推理

RFT 支持推理和非推理模型,每种模型都针对不同类型的任务进行了优化。推理模型在生成最终答案之前会生成明确的中间思考步骤,非常适合数学问题解决、多步逻辑推理和代码生成等复杂分析任务,在这些任务中,展示推理过程会增加价值。您可以配置推理的努力程度——高以实现最大的推理能力,或低以实现最小的开销。非推理模型在没有显示中间推理步骤的情况下提供直接响应,优化速度和成本。它们最适合聊天机器人式问答等任务,您希望更快地执行而无需推理开销,尽管这可能会导致输出质量低于推理模式。选择取决于您的任务要求:当中间思考步骤提高准确性并且您需要在复杂问题上实现最大性能时,请使用推理模式。当您优先考虑速度和成本效率而不是明确推理可能带来的潜在质量改进时,请使用非推理模式。

何时使用 RFT 与 SFT 对比

方法 最适用场景 优势 局限性
监督微调 (SFT) 具有清晰所需输出的明确定义任务,例如,“给定 X,正确输出是 Y。” • 直接教授事实知识(例如,“巴黎是法国的首都”) • 适用于拥有高质量提示-响应对时 • 提供一致的格式和特定的输出结构 • 需要针对每种所需行为进行明确的标记示例 • 在涉及模糊或多种有效解决方案的任务中可能会遇到困难
强化微调 (RFT) 可以定义奖励函数的情景,即使只有一个有效解决方案 • 优化复杂的推理任务 • 有效地生成自己的训练数据,减少对许多人工标记示例的需求 • 可以平衡相互竞争的目标(准确性、效率、风格) • 需要模型在多次尝试(通常为 4-8 次)中至少生成一个正确的解决方案 • 如果模型持续无法生成正确的解决方案,仅靠 RFT 将无效

案例研究:使用 RFT 优化金融分析基准 (FinQA)

在这个案例研究中,我们将引导用户完成 FinQA(一个金融分析基准)的示例案例研究,并用它来演示响应中实现的优化。在这个例子中,我们将使用 FinQA 公共数据集中的 1000 个样本。

第 1 步:数据准备

按照 Nova 上的 RFT 中提到的 RFT 架构兼容的格式准备数据集。RFT 数据遵循 OpenAI 对话格式。每个训练示例是一个 JSON 对象,其中包含。对于我们的 FinQA 数据集,在 train.jsonl 中格式化后的一个示例数据点如下所示:

{ "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Context: ....

Question: ....

Provide your answer in the following format:
ANSWER: [your answer here]" } ] } ], "reference_answer": { "answer": "65.3%" }, "data_source": "finqa" }

必需字段:

  • messages:包含系统、用户以及可选助手角色的对话轮次的数组
  • reference_answer:用于奖励计算的预期输出或评估标准

可选字段:

  • id:用于跟踪和去重的唯一标识符
  • tools:模型可用的函数定义数组
  • Custom metadata fields:在计算奖励时使用的任何附加元数据(例如,task_iddifficulty_leveldomain

第 2 步:构建奖励和评分器函数

奖励函数是评估模型响应并为训练提供反馈信号的核心组件。它必须实现为 AWS Lambda 函数,该函数接受模型响应并返回奖励分数。目前,AWS Lambda 函数的执行时间限制为最长 15 分钟。调整时间...




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区