📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339049.html
原文作者:西风
AI大模型下半场新方向:蚂蚁港大联手推出PromptCoT 2.0,押注“任务合成”
在当前AI社区热议大模型未来发展方向之际,蚂蚁通用人工智能中心自然语言组与香港大学自然语言组联合推出了PromptCoT 2.0框架,并明确提出要在模型下半场押注任务合成这一关键技术。

实验结果显示,通过引入“强起点、强反馈”的自博弈式训练,PromptCoT 2.0 能够使 30B-A3B 级别的模型在数学和代码推理等任务上取得新的SOTA(State-of-the-Art)表现,其性能可与 DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro 等领先模型相媲美。

PromptCoT 2.0:从PromptCoT 1.0到任务合成基石的全面升级
自OpenAI发布o1并引领“深度思考”时代以来,大模型社区正从单纯的推理(Reasoners)加速迈向智能体(Agents)。团队认为,无论是模型推理能力,还是新兴的Agent应用,都离不开两大基石技术:强化学习和任务合成。
团队认为,强化学习已获得大量关注和投入,而任务合成(包括问题、答案、环境和评估合成)则扮演着“燃料”的角色:
- 当模型面对现实世界中长尾、复杂的问题时,数据稀缺是主要障碍。没有高质量、难度适宜且覆盖全面的任务数据,再强的强化学习也无从发挥作用。
- 随着模型智能度提升,合成数据的质量将越来越高,未来有望取代人工数据,成为模型训练的主力军。
“强化学习是引擎,任务合成提供燃料”——这是团队对未来大模型后训练范式的核心判断。
从PromptCoT 1.0到2.0:方法、数据与效果全面革新
团队首先从问题合成入手,旨在构建一个通用且强大的问题合成框架。
在年初提出的PromptCoT 1.0框架中,团队将问题合成拆解为概念抽取、逻辑生成、和问题生成模型训练三个步骤,并成功利用人工构造的提示词训练出一个基于Llama3.1-8B的问题生成模型,生成了400k SFT数据,使下游模型在MATH-500、AIME等竞赛中表现优异。
为了探索更具扩展性和优雅性的学习范式,团队推出了PromptCoT 2.0。它用期望最大化(EM)循环取代了人工设计,通过迭代优化推理链来指导提示构造,生成的问题不仅更难,而且更具多样性。
效果升级:强化学习赋能强模型,SFT助力弱模型飞跃
强模型:SOTA再突破
如前所述,PromptCoT 2.0结合强化学习,已帮助强推理模型达到了新的SOTA结果。
弱模型:纯合成数据超越人工
当使用PromptCoT 2.0合成的问题对弱推理模型进行蒸馏训练时,结果同样令人鼓舞:

在完全不依赖人工问题的情况下,PromptCoT 2.0显著提升了弱模型的数学与代码推理能力,整体表现优于依赖人工构建的数据集(如OpenMathReasoning、OpenCodeReasoning)。这证明了合成数据在可扩展性上具备巨大潜力,或将成为提升大模型推理能力的核心动力。
此外,团队开源了4.77M个合成问题及其对应的教师监督**,主要来自GPT-OSS-120B-medium的紧凑推理链输出,有利于降低训练开销。
数据升级:更难、更具差异化
开源的4.77M合成数据具有两大特点:

- 更难的推理“咬合”:零微调评测显示,更低的即刻正确率和更高的推理Token消耗,表明这些题目能有效挖掘模型的潜在推理上限。
- 更高的差异性:通过嵌入空间分析,PromptCoT 2.0的数据集与现有开源题集(如OpenMathReasoning、OpenThoughts3等)形成了独立的分簇,补充了现有题库中缺失的“困难+新颖”区域。
方法升级:从提示工程到EM算法驱动
PromptCoT 2.0引入基于期望最大化(EM)的优化过程,使逻辑生成模型与问题生成模型能够通过迭代相互促进:
- E-step:利用奖励信号不断优化逻辑生成,使其更好地支撑问题构造。
- M-step:利用优化后的逻辑持续改进问题生成模型。
这种方法完全可学习且跨领域通用,减少了对人工提示或领域规则的依赖。

在后训练阶段,PromptCoT 2.0采用强化学习方法,允许强基线模型通过自我探索的推理路径进行学习,优化过程兼容PPO、GRPO、DPO等主流RL方法,且对奖励信号的噪音容忍度较高。
展望未来:从Reasoners到Agents,多模态任务合成的探索
PromptCoT 2.0只是任务合成的起点,团队计划在未来进行以下探索:
- Agentic环境合成:从单纯的出题扩展到构建可交互、可验证的环境(网页、API、GUI、代码沙盒),训练模型进行规划和操作。
- 多模态任务合成:将图像/视频/表格/语音等信息纳入“概念→逻辑→任务”模式,催生跨模态推理和工具使用能力。
- 自奖励与对抗式自进化:探索PromptCoT与自奖励机制相结合,或将EM内循环与“出题者–解题者”的博弈式外循环结合,以期进一步提升模型上限。
该工作由香港大学计算机系博士生赵学亮(蚂蚁技术研究院通用人工智能中心实习)作为第一作者完成。
论文链接:https://arxiv.org/abs/2509.19894
Github链接:https://github.com/inclusionAI/PromptCoT
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区