目 录CONTENT

文章目录

重磅!蚂蚁与港大联合推出SOTA级任务合成框架PromptCoT 2.0:强化学习驱动,迈向AI智能体新时代

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 2 阅读 / 0 字

📢 转载信息

原文链接:https://www.qbitai.com/2025/10/339049.html

原文作者:西风


下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

PromptCoT 2.0:PromptCoT框架的全面升级

一年前,OpenAI的深度思考范式引领了大模型社区进入“深度思考”时代。如今,蚂蚁与港大联合在大模型下半场押注任务合成

为何押注任务合成?

OpenAI的AGI蓝图正从Reasoners(推理者)向Agents(智能体)推进,各类Agent应用层出不穷。团队认为,无论对大模型推理还是智能体,有两项技术是基石

1. 强化学习:作为“强化学习之年”,该技术已获得社区大量关注和投入。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

2. 任务合成:这是一个广泛概念,涵盖问题、答案、环境乃至评估的合成。团队认为,任务合成至关重要,原因如下:

  • 大模型走出数学代码竞赛后,将面对现实世界中长尾且复杂的问题,这导致数据稀缺。没有高质量、难度适中的任务数据,强化学习无法发挥作用。
  • 随着模型智能化,合成数据的质量会越来越高,未来可能取代人工数据成为训练主力。

团队的判断是:强化学习是引擎,任务合成提供燃料,这是未来大模型后训练范式的关键。

基于此判断,团队首先从问题合成切入,旨在发展一套通用且强力的问题合成框架。

早在今年年初,团队就提出了PromptCoT框架,通过将“思考过程”引入问题合成来提升难度。该框架将问题合成分解为概念抽取逻辑生成问题生成模型训练三个步骤。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

利用该框架,团队生成了400k SFT数据,训练出的DeepSeek-R1-Distill-Qwen-7B模型在MATH-500、AIME 2024和AIME 2025上的表现均超过了32B的s1模型。

面对开源模型性能的快速迭代,团队思考如何让PromptCoT更具扩展性、探究纯合成问题的效果极限,以及如何进一步提升强模型的潜力。

为此,团队推出了PromptCoT 2.0。这是一个可扩展框架,用期望最大化(EM)循环取代了人工设计,迭代优化推理链以指导提示构造,生成的问题更难更加多样化

PromptCoT 2.0:效果、数据与方法的全面升级

效果升级:强化学习+SFT,模型能力双飞

PromptCoT 2.0 结合强化学习,已在强推理模型上实现了新SOTA。当用其合成的问题进行蒸馏训练弱推理模型时,效果如何?

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

结果显示,完全不依赖人工问题,PromptCoT 2.0大幅提升了弱模型的数学与代码推理能力,表现优于依赖人工问题构建的数据集(如OpenMathReasoningOpenCodeReasoning)。这证明合成数据具备更强的可扩展性,有望成为未来大模型推理能力提升的核心动力。

此外,教师监督(来自GPT-OSS-120B-medium)表达更紧凑,有助于降低推理开销。团队还全面开源了4.77M个合成问题及对应的教师监督,以供社区训练模型。

数据升级:更难、更具差异化

开源的4.77M合成数据具有两大特征:

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

1. 更难:在零微调评测下,PromptCoT 2.0表现出更低的即刻正确率和更高的推理token消耗,能有效挖掘模型的推理上限。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

2. 更具差异化:通过嵌入均值和余弦距离分析,PromptCoT 2.0的数据点与其他现有开源题集形成了独立分簇,填补了“困难+新颖”区域的空白。

方法升级:从提示工程到EM算法

PromptCoT 2.0引入基于期望最大化(EM)的优化过程,使逻辑生成和问题生成模型在迭代中相互促进,完全可学习且跨领域通用。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

在后训练上,除了SFT,PromptCoT 2.0还采用了强化学习方法。它能兼容PPO、GRPO、DPO等多种在线离线RL方法,仅需相对容易获得的奖励信号,就能让强基线模型通过自博弈学习提升。

面向未来:从Reasoners走向Agents——问题合成×环境合成×多模态

PromptCoT 2.0只是起点,未来的方向包括:

  1. Agentic环境合成:不仅出题,更要“造环境”(如网页、API、GUI、代码沙盒),让模型在可交互世界中学习规划和操作。
  2. 多模态任务合成:将图像/视频/表格/语音纳入“概念→逻辑→任务”模式,催生跨模态推理与工具使用。
  3. 自奖励和对局式自进化:探索将PromptCoT与自奖励或“出题者–解题者”对抗协作模式结合,进一步提升模型上限。

该工作的第一作者为香港大学计算机系博士生赵学亮,目前在蚂蚁技术研究院通用人工智能中心实习。蚂蚁技术研究院通用人工智能中心自然语言组武威、关健、龚卓成为共同贡献者。

论文链接:https://arxiv.org/abs/2509.19894
Github链接: https://github.com/inclusionAI/PromptCoT




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区