目 录CONTENT

文章目录

颠覆性创新:腾讯发布“无训练”AI微调法,120元效果媲美7万元方案

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/341842.html

原文作者:时令


只花120元,效果吊打70000元微调!

腾讯提出了一个升级大模型智能体(LLM Agent)的全新方法——无训练组相对策略优化(Training-Free GRPO)

这项技术无需调整任何参数,只需在提示词中学习简短的经验知识,就能以极低的成本实现模型性能的高性价比提升。

实验结果令人瞩目:利用无训练GRPO的DeepSeek-V3.1-Terminus模型在数学推理和网页搜索任务上展现出显著的跨领域性能提升。与传统的微调32B模型相比,该方法在671B大型模型上所需的训练数据更少、成本更低。

网友们纷纷感叹:“也太划算了吧!”

告别昂贵微调,将经验知识注入Token先验

当前,大语言模型(LLM)正成为强大的通用智能体,但在涉及外部工具调用或特定策略的专业场景中,由于对领域和工具的不熟悉,LLM的性能往往受到限制。

传统的基于GRPO的强化学习方法通过调整模型参数来优化行为,但面临以下挑战:

  • 算力成本高昂;
  • 跨领域泛化能力不足;
  • 数据获取困难;
  • 收益递减。

为了克服这些局限,腾讯优图团队提出了Training-Free GRPO。它通过轻量级的“Token先验”在上下文中学习经验知识,实现了无需修改模型参数即可提升LLM智能体性能的目标。

Training-Free GRPO 的核心机制

Training-Free GRPO保留了传统GRPO中基于组间相对评估的核心逻辑,但将其转化为一个非参数化的推理阶段过程。该方法**永久冻结**基础模型参数 $\theta$,转而维护一个外部经验知识库(初始为空集),通过动态更新知识库而非模型参数来实现性能优化。

该方法生成自然语言形式的组相对语义优势,具体流程如下:

  1. 对于每个输出,免训练GRPO首先让同一个大语言模型M生成对应的分析摘要。
  2. 基于摘要集和当前经验,M说明每个输出相对成功或失败的原因,并从中提取简明的自然语言经验。

与传统GRPO通过梯度上升更新参数 $\theta$ 不同,Training-Free GRPO使用当前批次中的所有语义优势 $A_{\text{text}}$ 来更新经验库,操作包括:

  • Add(添加):将 $A_{\text{text}}$ 中描述的经验追加到经验库;
  • Delete(删除):根据 $A_{\text{text}}$ 移除低质量经验;
  • Modify(修改):根据 $A_{\text{text}}$ 优化经验库中已有的经验;
  • Keep(保留):经验库保持不变。

在更新经验库后,条件策略将在后续批次中生成偏移后的输出分布。本质上,Training-Free GRPO是通过改变上下文而非模型参数本身,将模型引导至高奖励的输出。冻结的基础模型作为强先验(strong prior),保证了输出的连贯性和内在稳定性。

惊人的实验结果:低成本实现高性能提升

研究团队在数学推理和网络搜索两大基准测试上,重点评估了在成本高昂的大型高性能LLM(如 DeepSeek-V3.1-Terminus)上的性能。

数学推理任务:成本天壤之别

在数学推理任务中,Training-Free GRPO取得了显著提升:

  • 基线模型 DeepSeek-V3.1-Terminus+ReAct 在 AIME24 和 AIME25 上的得分为 80.0% 和 67.9%。
  • 应用 Training Free GRPO 后,冻结模型的表现分别提升至 82.7% 和 73.3%,绝对增益分别为 2.7% 和 5.4%。

更令人惊讶的是,这一提升仅使用了 **100个跨域训练样本**,且无需任何梯度更新。传统强化学习方法(如ReTool和AFM)在32B LLM上通常需要数千个训练样本,成本超过 **10000美元**,而Training Free GRPO仅需约 **18美元**(约120元人民币)。

实验还显示,随着每一步学习,模型表现持续提升,证明仅从少量样本中学到的经验能够有效泛化。同时,平均工具调用次数有所下降,表明该方法教会了智能体更高效、更谨慎地使用工具。

网络搜索任务:显著提升Pass@1

在 WebWalkerQA 基准测试中,Training-Free GRPO 使用 DeepSeek-V3.1-Terminus 模型时,Pass@1 得分达到 67.8%,较基线 63.2% 有显著提升。

消融实验表明:

  • 直接使用生成的未经优化的经验,性能可能略有下降。
  • 不使用真实答案的 Training-Free GRPO 在 Pass@3 上提升至 78.4%,表明相对奖励评估能提高输出一致性。
  • 完整的 Training-Free GRPO 取得了最佳表现(Pass@1 为 68.6%),凸显了结合真实答案指导、语义优势和经验优化的重要性。

此外,研究验证了该方法的有效性依赖于基础模型的能力。当应用于能力较弱的 QwQ-32B 模型时,Pass@1 仅为 25.5%,远低于 DeepSeek-V3.1-Terminus 的 66.7%,再次证明了该方法在具备良好推理和工具使用能力的基础模型上效果最佳。

论文链接:https://arxiv.org/abs/2510.08191

参考链接:https://x.com/rohanpaul_ai/status/1978048482003890625

Github链接:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区