📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339049.html
原文作者:西风
下一步,大模型应该押注什么方向?
蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,将大模型下半场的焦点锁定在任务合成上。

实验强力证明:通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0使30B-A3B模型在数学代码推理任务上达到了新的SOTA(State-of-the-Art)水平,表现媲美DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等顶级模型。

PromptCoT 2.0:PromptCoT框架的全面进化
一年前,OpenAI的o1通过“深度思考”范式引领了AI社区;如今,蚂蚁与港大联合在大模型下半场聚焦于任务合成。
为什么是任务合成?两大基石的战略布局
当前AI社区正从Reasoners(推理器)加速迈向Agents(智能体),涌现出大量关于搜索、软件工程、客服、GUI等应用。团队认为,无论是大模型的推理能力,还是智能体的兴起,都离不开两项基石技术:
- 强化学习(RL):作为“强化学习之年”的核心技术,RL已获得社区的充分关注和投入,方法和框架都在快速发展。
- 任务合成:这是一个广义概念,涵盖问题合成、答案合成、环境合成乃至评估合成。团队认为,当大模型面对现实世界中长尾且复杂的问题时,数据稀缺性将成为瓶颈。没有足够多样化和高质量的任务数据作为起点,RL将无法发挥作用。同时,随着模型智能的提升,合成数据的质量将超越人工数据,成为训练主力。
团队的核心判断是:强化学习是引擎,任务合成提供燃料。
基于此判断,团队选择从问题合成入手,致力于开发一套通用且强大的问题合成框架。这可以追溯到今年年初提出的PromptCoT框架,它通过将“思考过程”引入问题合成,有效提升了合成问题的难度。

PromptCoT 1.0 将问题合成分解为概念抽取、逻辑生成和问题生成模型训练三个步骤。利用精心构造的提示词训练出的Llama3.1-8B问题生成模型,团队生成了400k SFT数据,训练DeepSeek-R1-Distill-Qwen-7B模型,在MATH-500、AIME 2024/2025等测试中,性能超越了32B的s1模型。
为了进一步扩展和优化,团队推出了PromptCoT 2.0。它引入了期望最大化(EM)循环来取代人工设计,通过迭代优化推理链来指导提示构造,从而生成更困难且多样化的问题。

效果升级:强化学习+SFT,强弱模型全面飞升
PromptCoT 2.0 结合强化学习,已帮助强推理模型创下新SOTA。那么,当使用PromptCoT 2.0合成的问题对弱推理模型进行蒸馏训练时,效果如何呢?

如上表所示,在完全不依赖人工问题的情况下,PromptCoT 2.0 显著提升了弱模型的数学和代码推理能力,整体表现优于依赖人工问题构建的数据集(如OpenMathReasoning、OpenCodeReasoning)。
这有力证明了合成数据相比人工数据具有更强的可扩展性,有望成为未来推动大模型推理能力提升的核心动力。此外,教师监督(来自GPT-OSS-120B-medium)在表达上更紧凑,平均推理长度更短,在保证质量的同时,也降低了推理开销。
更重要的是,团队开源了4.77M个合成问题及其对应的教师监督数据,为社区训练模型(特别是扩散语言模型等不适用LongCoT的模型)提供了宝贵资源。
数据升级:更难、更具差异化的新数据集
开源的4.77M合成数据具备两大显著特征:

- 更难:在零微调评测中,PromptCoT 2.0 展现出更低的即刻正确率和更高的推理Token消耗,这意味着这些题目更能“咬合推理”,有效挖掘了模型的潜在推理上限。

- 更具差异化:通过嵌入空间分析,PromptCoT 2.0 的数据点与现有开源题集形成了独立的簇群,表明它有效补充了现有题库中缺失的“困难+新颖”区域。
方法升级:从提示工程到EM算法的飞跃
PromptCoT 2.0 在 1.0 基础上引入了基于期望最大化(EM)的优化过程,实现了逻辑生成模型与问题生成模型的迭代互促。E-step 利用奖励信号优化逻辑生成,M-step 则用这些逻辑改进问题生成模型。这使得框架完全可学习、跨领域通用,极大地减少了人工干预。

在后训练阶段,除了SFT,PromptCoT 2.0 采用了兼容 PPO、GRPO、DPO 等多种在线/离线方法的强化学习机制。其关键优势在于对奖励信号的要求较低,即使存在一定噪声,强基线模型也能通过自博弈方式自我提升。
展望未来:从Reasoners迈向Agents——问题合成×环境合成×多模态
尽管PromptCoT 2.0已实现大幅升级,但任务合成的探索仍是起点。团队计划未来在以下方向深耕:
- Agentic环境合成:不只是出题,更要“创造环境”(如网页、API、GUI、代码沙盒、对话场景),让模型在可交互、可验证的世界中学习规划、操作与反思。
- 多模态任务合成:将图像/视频/表格/语音信息纳入“概念→逻辑→任务”模式,以促进跨模态推理和工具使用。
- 自奖励与对局式自进化:探索将PromptCoT与自奖励机制,或EM内循环与“出题者–解题者”等博弈式外循环相结合,以期进一步突破模型能力的上限。
时间紧迫,但可做之事甚多。在PromptCoT 2.0发布之际,下一代版本已在路上。
该工作的第一作者是香港大学计算机系博士生赵学亮(目前在蚂蚁技术研究院通用人工智能中心实习)。蚂蚁技术研究院通用人工智能中心自然语言组的武威、关健、龚卓成对该工作做出了共同贡献。
论文链接:https://arxiv.org/abs/2509.19894
Github链接: https://github.com/inclusionAI/PromptCoT
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区