目 录CONTENT

文章目录

利用 Amazon SageMaker AI 无服务器模型定制加速 AI Agent 工具调用

Administrator
2026-04-07 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

原文作者:Lauren Mullennex, Eric Saleh, Surya Kari


AI Agent 的核心价值在于其工具调用能力。正是通过调用工具,它们才能查询数据库、触发工作流、检索实时数据并代表用户执行操作。然而,基础模型经常会产生“幻觉”,调用并不存在的工具、传递错误的参数,或者在应当询问澄清问题时尝试执行操作。这些故障削弱了信任,阻碍了生产环境的部署。

现在,您可以使用 Amazon SageMaker AI 中的无服务器模型定制功能解决这些问题,而无需管理底层基础设施。通过带可验证奖励的强化学习(RLVR),模型能够生成候选响应,接收评估其质量的奖励信号,并更新其行为以倾向于表现更好的输出。您只需选择模型、配置技术、指定数据和奖励函数,SageMaker AI 即可处理后续所有工作。

在本文中,我们将探讨如何使用 RLVR 对 Qwen 2.5 7B Instruct 模型进行工具调用微调。通过本教程,您将掌握数据集准备、分级奖励函数设计、训练配置及评估方法。最终,我们的微调模型在未见过的工具场景中,工具调用奖励分数提升了 57%。

为什么工具调用适合 RLVR?

传统的有监督微调(SFT)需要针对每种行为准备大量标注示例。然而,工具调用不仅要求模型掌握调用格式,还要求其在调用、澄清和拒绝之间做出决策,而 SFT 在泛化此类决策时往往表现不佳。

RLVR 的工作方式完全不同。对于每个提示,模型会生成多个候选响应(本例中为 8 个)。奖励函数会验证哪些是正确的。随后,模型通过组相对策略优化(GRPO)更新策略,加强那些高于平均奖励水平的响应。随着时间的推移,模型能自动学会正确的工具调用格式,并识别何时应该调用、何时应该询问。

微调步骤概览

Amazon SageMaker Studio 模型定制界面

在 Amazon SageMaker AI Studio 中,您可以轻松浏览并选择支持的模型(如 Qwen 2.5 7B),在 Customize model(定制模型) 菜单中选择 Customize with UI(通过 UI 定制),并选择 Reinforcement Learning from Verifiable Rewards (RLVR) 技术进行配置。

准备训练数据

高质量的工具调用数据集需要涵盖三种核心情境:

  1. 执行(Execute):用户提供了所有必要信息,模型应直接调用工具。
  2. 澄清(Clarify):请求缺少必要参数,模型应询问用户以获取更多信息。
  3. 拒绝(Refuse):请求有害或超出范围,模型应予以礼貌拒绝。

我们使用 Amazon 的 AI 助手 Kiro 生成了 1,500 条合成数据,涵盖了天气查询、航班搜索、翻译等五种工具模式。这种方法对于缺乏生产日志的团队非常实用。

定义奖励函数

奖励函数是 RLVR 的核心。它接收模型的响应和参考答案,返回一个数值分数。我们采用了分级评分逻辑(1.0, 0.5, 0.0),这能为 GRPO 提供更丰富的反馈信号,帮助模型理解即便未能完全正确,只要方向正确(如函数调用对了但参数有误)也是有价值的。

训练与结果

训练指标看板

通过训练,平均奖励分数从 0.28 稳步攀升至 0.68。评估显示,在未见过的测试集上,工具调用奖励分数从 0.35 提升至 0.55,整体准确性显著增强,且模型表现出了强大的通用性。

结论

通过 Amazon SageMaker AI 的无服务器模型定制,您可以快速构建具备强大工具调用能力的 Agent。RLVR 不仅适用于工具调用,还可扩展至多步规划、结构化数据提取等逻辑推理任务。立即尝试,为您的大模型构建更聪明、更可靠的“行动力”。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区