目 录CONTENT

文章目录

SOTA全新合成框架出炉!蚂蚁港大联手,强化学习做引擎,任务合成当燃料

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339049.html

原文作者:量子位



在AI大模型发展的下半场,我们应该押注哪个方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(下称“团队”)推出了PromptCoT 2.0,旨在在大模型训练中重点发展“任务合成”能力。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

实验结果令人振奋:通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0 帮助 30B-A3B 模型在多项数学代码推理任务上取得了新的SOTA(State-of-the-Art)表现,性能可媲美DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等顶尖模型。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

PromptCoT 2.0:框架全面升级,聚焦任务合成

一年前,OpenAI发布的o1以深度思考范式在数学代码竞赛中脱颖而出,开启了“深度思考”时代。如今,蚂蚁与港大团队选择在下半场聚焦“任务合成”。

为什么选择任务合成?

随着大模型向Agent快速演进,无论是推理还是智能体应用,团队认为有两大基石技术至关重要:

  1. 强化学习:作为“强化学习之年”,该技术已备受关注和投入,方法和框架都在快速发展。
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
  1. 任务合成:这个概念涵盖了问题合成、答案合成、环境合成乃至评估合成。团队认为,当大模型处理现实世界中长尾复杂问题时,数据稀缺是主要障碍。没有高质量、难度适中且覆盖全面的任务数据,强化学习难以发挥作用。

团队判断:强化学习是引擎,任务合成提供燃料,这将是大模型未来后训练范式的核心。

团队选择从“问题合成”入手,旨在构建一个通用且强大的问题合成框架,因为问题合成是任务合成的基石。

年初提出的PromptCoT框架,通过将“思考过程”引入问题合成以提升难度,将合成过程分解为概念抽取逻辑生成问题生成模型训练三个步骤。利用该框架,团队生成了400k SFT数据,训练的DeepSeek-R1-Distill-Qwen-7B模型在MATH-500、AIME 2024和AIME 2025等测试集上的表现均超越了32B的s1模型。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

面对开源模型性能的飞速迭代,团队提出了更进一步的思考:

  • PromptCoT能否实现更优雅、可扩展的学习范式?
  • 纯合成问题能否超越人工数据效果?
  • PromptCoT能否进一步提升已消费海量开源数据的强模型的性能?

为此,团队推出了PromptCoT 2.0。它引入了期望最大化(EM)循环,取代了人工设计,通过迭代优化推理链来指导提示构造,从而生成更难、更多样化的问题。

效果升级:强弱模型齐头并进,强化学习+SFT双驱动

PromptCoT 2.0 结合强化学习,已展示了其对强推理模型的SOTA级提升。那么,当它用于蒸馏训练弱推理模型时效果如何呢?

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

如上表所示,在完全不依赖人工数据的情况下,PromptCoT 2.0显著提升了弱模型的数学与代码推理能力,且整体表现优于依赖人工数据构建的数据集(如OpenMathReasoningOpenCodeReasoning)。

这证明了合成数据相比人工数据具有更强的可扩展性,有望成为未来推动大模型推理能力提升的核心动力。同时,团队使用的教师监督(来自GPT-OSS-120B-medium)推理链更紧凑(平均推理长度更短),在保证质量的前提下,有助于降低推理开销,提升训练效率。

更值得一提的是,团队全面开源了4.77M个合成问题及对应的教师监督数据,为社区模型训练(特别是扩散语言模型等不适合LongCoT的模型)提供了宝贵资源。

数据升级:更难、更具差异化

开源的4.77M合成数据具备两大核心特征:

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
  1. 难度更高:在零微调评测中,PromptCoT 2.0 表现出更低的即刻正确率和更高的推理Token消耗,表明这些问题能更有效地“咬合推理”,充分挖掘模型的推理上限。
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
  1. 差异化显著:通过嵌入分析,PromptCoT 2.0 的数据点与其他现有开源题集(如OpenMathReasoning、OpenThoughts3、OpenR1)形成了独立分簇。这表明它补充了现有题库中缺失的“困难+新颖”区域,为模型训练带来了额外的分布层增益。

方法升级:从提示工程到EM算法驱动

PromptCoT 2.0 相较于 1.0 的重大改进在于引入了基于期望最大化(EM)的优化过程,实现了逻辑生成模型和问题生成模型的迭代互促。E-step 通过奖励信号优化逻辑生成,M-step 利用逻辑持续改进问题生成模型。

与依赖人工提示不同,PromptCoT 2.0 完全可学习、跨领域通用,能以极少人工干预生成更具挑战性和多样性的问题。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

在后训练阶段,除了SFT,PromptCoT 2.0 还采用了强化学习方法。在相对容易获得的奖励信号下(实验中分别采用 GPT-OSS-120B 和 Qwen3-32B 作为奖励源),强基线模型可以通过自博弈方式,从自我经验中学习并提升能力,兼容 PPO、GRPO、DPO 等多种强化学习方法。

展望未来:从Reasoners迈向Agents,任务合成的无限可能

尽管PromptCoT 2.0取得了显著进展,但在任务合成的道路上,它仍是起点。团队正着眼于以下几个未来发展方向:

  1. Agentic环境合成:不仅要出题,还要创造“环境”(网页、API、GUI、代码沙盒、对话场景),让模型在可交互、可验证的世界中学习规划、操作与反思。
  2. 多模态任务合成:将图像/视频/表格/语音等信息融入“概念→逻辑→任务”模式,促进跨模态推理和工具使用。
  3. 自奖励与对局式自进化:探索将PromptCoT与自奖励机制或“两方博弈”(如“出题者–解题者”)相结合,以期进一步突破模型上限。

时间紧迫,但潜力无限。PromptCoT 2.0发布之际,下一代PromptCoT也已在路上。

该工作的第一作者是香港大学计算机系博士生赵学亮,目前在蚂蚁技术研究院通用人工智能中心实习。武威、关健、龚卓成为共同贡献者。

论文链接:https://arxiv.org/abs/2509.19894
Github链接: https://github.com/inclusionAI/PromptCoT





🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区