📢 转载信息

原文链接：https://www.qbitai.com/2025/10/339049.html

原文作者：西风

下一步，大模型应该押注什么方向？

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组（后简称“团队”）推出PromptCoT 2.0，将大模型下半场的焦点锁定在任务合成上。

实验强力证明：通过“强起点、强反馈”的自博弈式训练，PromptCoT 2.0使30B-A3B模型在数学代码推理任务上达到了新的SOTA（State-of-the-Art）水平，表现媲美DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等顶级模型。

PromptCoT 2.0：PromptCoT框架的全面进化

一年前，OpenAI的o1通过“深度思考”范式引领了AI社区；如今，蚂蚁与港大联合在大模型下半场聚焦于任务合成。

为什么是任务合成？两大基石的战略布局

当前AI社区正从Reasoners（推理器）加速迈向Agents（智能体），涌现出大量关于搜索、软件工程、客服、GUI等应用。团队认为，无论是大模型的推理能力，还是智能体的兴起，都离不开两项基石技术：

强化学习（RL）：作为“强化学习之年”的核心技术，RL已获得社区的充分关注和投入，方法和框架都在快速发展。
任务合成：这是一个广义概念，涵盖问题合成、答案合成、环境合成乃至评估合成。团队认为，当大模型面对现实世界中长尾且复杂的问题时，数据稀缺性将成为瓶颈。没有足够多样化和高质量的任务数据作为起点，RL将无法发挥作用。同时，随着模型智能的提升，合成数据的质量将超越人工数据，成为训练主力。

团队的核心判断是：强化学习是引擎，任务合成提供燃料。

基于此判断，团队选择从问题合成入手，致力于开发一套通用且强大的问题合成框架。这可以追溯到今年年初提出的PromptCoT框架，它通过将“思考过程”引入问题合成，有效提升了合成问题的难度。

PromptCoT 1.0 将问题合成分解为概念抽取、逻辑生成和问题生成模型训练三个步骤。利用精心构造的提示词训练出的Llama3.1-8B问题生成模型，团队生成了400k SFT数据，训练DeepSeek-R1-Distill-Qwen-7B模型，在MATH-500、AIME 2024/2025等测试中，性能超越了32B的s1模型。

为了进一步扩展和优化，团队推出了PromptCoT 2.0。它引入了期望最大化（EM）循环来取代人工设计，通过迭代优化推理链来指导提示构造，从而生成更困难且多样化的问题。

效果升级：强化学习+SFT，强弱模型全面飞升

PromptCoT 2.0 结合强化学习，已帮助强推理模型创下新SOTA。那么，当使用PromptCoT 2.0合成的问题对弱推理模型进行蒸馏训练时，效果如何呢？

如上表所示，在完全不依赖人工问题的情况下，PromptCoT 2.0 显著提升了弱模型的数学和代码推理能力，整体表现优于依赖人工问题构建的数据集（如OpenMathReasoning、OpenCodeReasoning）。

这有力证明了合成数据相比人工数据具有更强的可扩展性，有望成为未来推动大模型推理能力提升的核心动力。此外，教师监督（来自GPT-OSS-120B-medium）在表达上更紧凑，平均推理长度更短，在保证质量的同时，也降低了推理开销。

更重要的是，团队开源了4.77M个合成问题及其对应的教师监督数据，为社区训练模型（特别是扩散语言模型等不适用LongCoT的模型）提供了宝贵资源。

数据升级：更难、更具差异化的新数据集

开源的4.77M合成数据具备两大显著特征：

更难：在零微调评测中，PromptCoT 2.0 展现出更低的即刻正确率和更高的推理Token消耗，这意味着这些题目更能“咬合推理”，有效挖掘了模型的潜在推理上限。

更具差异化：通过嵌入空间分析，PromptCoT 2.0 的数据点与现有开源题集形成了独立的簇群，表明它有效补充了现有题库中缺失的“困难+新颖”区域。

方法升级：从提示工程到EM算法的飞跃

PromptCoT 2.0 在 1.0 基础上引入了基于期望最大化（EM）的优化过程，实现了逻辑生成模型与问题生成模型的迭代互促。E-step 利用奖励信号优化逻辑生成，M-step 则用这些逻辑改进问题生成模型。这使得框架完全可学习、跨领域通用，极大地减少了人工干预。

在后训练阶段，除了SFT，PromptCoT 2.0 采用了兼容 PPO、GRPO、DPO 等多种在线/离线方法的强化学习机制。其关键优势在于对奖励信号的要求较低，即使存在一定噪声，强基线模型也能通过自博弈方式自我提升。

展望未来：从Reasoners迈向Agents——问题合成×环境合成×多模态

尽管PromptCoT 2.0已实现大幅升级，但任务合成的探索仍是起点。团队计划未来在以下方向深耕：

Agentic环境合成：不只是出题，更要“创造环境”（如网页、API、GUI、代码沙盒、对话场景），让模型在可交互、可验证的世界中学习规划、操作与反思。
多模态任务合成：将图像/视频/表格/语音信息纳入“概念→逻辑→任务”模式，以促进跨模态推理和工具使用。
自奖励与对局式自进化：探索将PromptCoT与自奖励机制，或EM内循环与“出题者–解题者”等博弈式外循环相结合，以期进一步突破模型能力的上限。

时间紧迫，但可做之事甚多。在PromptCoT 2.0发布之际，下一代版本已在路上。

该工作的第一作者是香港大学计算机系博士生赵学亮（目前在蚂蚁技术研究院通用人工智能中心实习）。蚂蚁技术研究院通用人工智能中心自然语言组的武威、关健、龚卓成对该工作做出了共同贡献。

论文链接：https://arxiv.org/abs/2509.19894
Github链接： https://github.com/inclusionAI/PromptCoT

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

重磅发布！蚂蚁港大联手推出PromptCoT 2.0：以强化学习为引擎，任务合成为燃料，刷新多项AI推理SOTA纪录