目 录CONTENT

文章目录

SOTA级新合成框架出炉:蚂蚁与港大联手,以强化学习为引擎,任务合成为燃料

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339049.html

原文作者:西风


在大模型发展进入下半场之际,下一步该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(以下简称“团队”)提出了PromptCoT 2.0,致力于在大模型训练中押注任务合成这一新范式。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

实验结果令人鼓舞:通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0 驱动的 30B-A3B 模型在数学和代码推理任务上达到了新的SOTA(State-of-the-Art)水平,性能可与 DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro 等顶级模型媲美。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

PromptCoT 2.0:对原有框架的全面升级

一年前,大模型社区在深度思考(Reasoners)的浪潮中前行;如今,随着 Agent 技术的兴起,蚂蚁与港大团队将目光投向了任务合成

团队认为,无论是在大模型推理还是智能体(Agent)应用中,有两大技术至关重要:

  1. 强化学习(RL):作为关键引擎,RL 领域正在快速发展。
  2. 任务合成:这是驱动大模型进化的“燃料”,涵盖了问题合成、答案合成、环境合成乃至评估合成。
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

为什么是任务合成?

  • 当大模型走出竞赛题的局限,将面对现实世界长尾而复杂的问题时,数据稀缺性凸显。没有高质量、难度适中且覆盖全面的任务数据,强化学习难以发挥作用。
  • 随着模型智能水平的提升,合成数据的质量将越来越高,未来有望取代人工数据,成为训练主力。

强化学习是引擎,任务合成提供燃料——这是团队对大模型后训练范式的判断。基于此,团队首先从问题合成入手,构建了一个通用且强大的问题合成框架。

早在年初,团队就发布了 PromptCoT 框架,通过引入“思考过程”来提升合成问题的难度。该框架将问题合成拆解为概念抽取、逻辑生成和问题生成模型训练三个步骤。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

基于此,团队训练了 Llama3.1-8B 的问题生成模型,生成了 400k SFT 数据,并训练出 DeepSeek-R1-Distill-Qwen-7B 模型,其在 MATH-500、AIME 2024/2025 上的表现均超越了 32B 的 s1 模型。

面对开源模型的快速迭代,团队提出了 PromptCoT 2.0,旨在实现更具扩展性和优雅性的学习范式,并探索合成数据超越人工数据的可能性。

PromptCoT 2.0 使用期望最大化(EM)循环取代了人工设计,在循环中迭代优化推理链以指导提示词构造,生成的问题更难,且比以往语料更多样化

效果升级:强化学习与SFT结合,强弱模型同步提升

PromptCoT 2.0 结合强化学习,使得强推理模型取得了 SOTA 结果。那么,用 PromptCoT 2.0 合成的问题对弱推理模型进行蒸馏训练,效果如何?

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

如上表所示,在完全不依赖人工数据的情况下,PromptCoT 2.0 大幅提升了弱模型的数学与代码推理能力,整体表现优于依赖人工数据的 OpenMathReasoning 和 OpenCodeReasoning 等数据集。

这表明,相较于人工数据,合成数据具有更强的可扩展性,有望成为推动大模型推理能力提升的核心动力。此外,教师监督(来自 GPT-OSS-120B-medium)的表达更紧凑(平均推理长度更短),在保证质量的同时,降低了推理开销。

团队全面开源了 4.77M 个合成问题及对应的教师监督,惠及社区中,特别是那些不适合 LongCoT 的模型(如扩散语言模型)。

数据升级:更难、更具差异化

开源的 4.77M 合成数据显示出两大特点:

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
  1. 更难:在零微调评测下(直接使用强指令模型解题),PromptCoT 2.0 表现出更低的即刻正确率和更高的推理 Token 消耗,表明其有效挖掘了模型的推理上限。
  2. 更具差异化:通过嵌入均值和余弦距离分析,PromptCoT 2.0 的数据点与现有开源题集形成了独立簇,显示出其补充了现有题库中“困难+新颖”的区域,为模型训练提供了额外的分布增益。
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

方法升级:从提示工程到EM算法驱动

PromptCoT 2.0 引入了基于期望最大化(EM)的优化过程,使逻辑生成模型和问题生成模型在迭代中相互促进,无需依赖人工提示或特定领域规则,即可生成更具挑战性和多样性的问题。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

在后训练方面,PromptCoT 2.0 采用强化学习方法,通过自我探索学习路径,即使奖励信号存在一定噪声(实验中分别采用 GPT-OSS-120B 和 Qwen3-32B 作为奖励信号),强基线模型也能通过自博弈方式得到提升。

展望未来:从Reasoners迈向Agents

PromptCoT 2.0 是一个重要的起点,团队计划在以下方向继续探索任务合成的潜力:

  1. Agentic 环境合成:不仅生成问题,还要“构建环境”(网页、API、GUI、代码沙盒、对话场景),让模型在可交互世界中学习规划、操作与反思。
  2. 多模态任务合成:将图像、视频、表格、语音等信息纳入“概念→逻辑→任务”的模式,激发跨模态推理和工具使用能力。
  3. 自奖励与对局式自进化:探索将 PromptCoT 与自奖励机制、对抗协作模式(如“出题者–解题者”)相结合,进一步提升模型上限。

当前工作紧锣密鼓,下一个 PromptCoT 版本已在路上。

该研究的第一作者是香港大学计算机系博士生赵学亮(蚂蚁技术研究院通用人工智能中心实习生)。蚂蚁技术研究院通用人工智能中心自然语言组的武威、关健、龚卓成是共同贡献者。

论文链接:https://arxiv.org/abs/2509.19894
Github 链接: https://github.com/inclusionAI/PromptCoT





🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区