使用兼容 OpenAI API 的 Amazon Bedrock 进行强化微调（RFT）：技术详解-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/reinforcement-fine-tuning-on-amazon-bedrock-with-openai-compatible-apis-a-technical-walkthrough/

原文作者：Shreyas Subramanian, Nick McCarthy, Shalendra Chhabra, and Shreeya Sharma

2025年12月，我们宣布在 Amazon Bedrock 上支持强化微调（RFT），并首先支持 Nova 模型。随后，我们在2026年2月扩展了对 OpenAI GPT OSS 20B 和 Qwen 3 32B 等开放权重模型的支持。Amazon Bedrock 中的 RFT 实现了端到端自定义工作流的自动化，使模型能够通过小规模提示词集对多个可能响应进行反馈学习，而非依赖传统的庞大数据集。

强化微调的工作原理

强化微调（RFT）代表了我们自定义大语言模型（LLM）方式的范式转变。与需要从静态输入/输出对中学习的传统监督微调（SFT）不同，RFT 通过迭代反馈循环使模型能够不断生成响应、获取评估并持续提升决策能力。

核心理念：从反馈中学习

强化学习的核心在于通过对行为提供反馈来引导代理（在此案例中为 LLM）做出更优决策。模型会针对给定的提示生成多个潜在响应，根据响应符合标准的程度获得评分（奖励），并学会倾向于产生高分输出的模式和策略。

RFT 的关键组件

关键组件包括代理（策略）模型、输入状态、输出行为以及奖励函数，如下图所示：

Amazon Bedrock RFT 的工作流程

Amazon Bedrock RFT 旨在实现企业级的强化微调实用化。整个 RFT 流水线会自动运行：

上传训练数据：通过 Files API 上传 JSONL 格式文件。
部署奖励函数：作为 AWS Lambda 函数部署，对模型生成的响应进行评分。
创建微调作业：Bedrock 的 GRPO 引擎会生成响应并发送至 Lambda 进行评估。
监控训练：通过事件和检查点实时跟踪进度。
按需调用：无需预置端点，直接调用已微调的模型。

在此过程中，您的数据不会离开 AWS 的安全环境，也不会被用于训练 Amazon Bedrock 提供的基础模型。

技术实施步骤概要

1. 配置 OpenAI 客户端

将标准的 OpenAI SDK 指向您的 Amazon Bedrock Mantle 端点。通过 aws-bedrock-token-generator 库生成 API 密钥即可轻松完成身份验证。

2. 准备与上传数据

训练数据为 JSONL 格式，必须包含 messages 和可选的 reference_answer（参考答案）。对于 GSM8K 等任务，参考答案可作为奖励函数计算分数的依据。

3. 部署 Lambda 奖励函数

奖励函数是 RFT 的灵魂。它接收模型响应，对比预期的参考答案，并返回 0 到 1 之间的分值。您可以根据用例编写自定义 Python 逻辑。

4. 创建与监控训练

使用标准的 API 调用即可启动作业。在训练过程中，重点关注 critic_rewards_mean（奖励均值，预期应上升）和 actor_entropy（策略熵，应保持平稳而非坍缩）。

5. 按需推理

微调完成后，您可以使用模型 ID 直接调用 client.chat.completions.create() 进行推理，无需任何额外的端点部署开销。

本指南中涉及的完整代码示例及 Jupyter Notebook 已在 GitHub 公开，您可以访问 Amazon Bedrock Samples GitHub 仓库获取详细参考。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

使用兼容 OpenAI API 的 Amazon Bedrock 进行强化微调（RFT）：技术详解