“强化学习鸿沟”：为何某些AI技能的提升速度远超其他？-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

📢 转载信息

原文链接：https://techcrunch.com/2025/10/05/the-reinforcement-gap-or-why-some-ai-skills-improve-faster-than-others/

原文作者：Russell Brandom

AI能力发展的不平衡：被忽视的“强化学习鸿沟”

AI编程工具正在飞速进步。如果你不从事代码开发工作，可能很难察觉到这种变化有多剧烈。像GPT-5和Gemini 2.5这样的模型已经使得自动化全新类型的开发任务成为可能，上周Sonnet 2.4也再次证明了这一点。

然而，与此同时，AI的其他能力提升却显得缓慢得多。如果你用AI来写邮件，你获得的价值可能和一年前差不多。即使模型本身有所改进，最终产品（特别是那些同时执行十几种任务的聊天机器人）的体验提升却不明显。AI仍在进步，但这种进步分布极不均匀。

这种进展速度的差异，其背后的原因比看起来要简单得多。编程应用之所以能迅速受益，是因为它们拥有数十亿个易于衡量的测试用例，这些用例可以用来训练模型生成可行的代码。这就是**强化学习（Reinforcement Learning, RL）**，它可以说是过去六个月推动AI进步的最大动力，并且其复杂性与日俱增。虽然可以用人工评估者来进行强化学习，但如果存在清晰的“通过/失败”标准，模型就能重复数十亿次训练而无需人工干预，效果最佳。

随着行业越来越依赖强化学习来改进产品，我们看到了一个明显的差距：那些适合自动评分的能力正在迅速提升，而那些本质上更主观的能力（如写作）进步则非常缓慢。简而言之，这就是**“强化学习鸿沟”（The Reinforcement Gap）**——它正成为决定AI系统能力边界的关键因素之一。

为何编程是强化学习的“完美温床”？

从某种意义上说，软件开发是强化学习的完美应用场景。在AI出现之前，就有专门研究软件在压力下如何保持稳定的子学科，因为开发人员需要在部署前确保代码不会崩溃。因此，即使是最优雅的代码也必须通过单元测试、集成测试、安全测试等环节。正如谷歌开发工具高级总监最近告诉我的那样，人类开发者常规使用的这些测试，对于验证AI生成的代码同样有效。更重要的是，这些测试本身就是系统化和可大规模重复的，非常适合强化学习。

相比之下，验证一封写得好的邮件或一个优秀的聊天机器人回复则没有简单的标准；这些技能本质上是主观的，难以进行大规模衡量。当然，并非所有任务都能明确归类为“易于测试”或“难于测试”。我们没有现成的测试工具包来评估季度财务报告或精算科学的准确性，但一个资金充裕的会计初创公司或许可以从零开始构建一个。当然，不同的测试工具包效果不同，公司在处理问题上的策略也会有所差异。但最终，底层流程的“可测试性”（Testability）将决定该流程能否转化为一个功能性产品，而非仅仅是一个令人兴奋的演示。

加入Disrupt 2025，与1万多名科技和风险投资领袖共同成长与连接

Netflix、Box、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil、Vinod Khosla——这些只是250多家重量级嘉宾中的一部分，他们将带来200多场会议，旨在提供推动初创企业增长、让你保持领先的真知灼见。不要错过TechCrunch成立20周年庆典，以及向顶尖科技人士学习的机会。在门票售罄前抢购，可节省高达444美元。

Netflix、Box、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil、Vinod Khosla——这些只是250多家重量级嘉宾中的一部分，他们将带来200多场会议，旨在提供推动初创企业增长、让你保持领先的真知灼见。不要错过向顶尖科技人士学习的机会。在门票售罄前抢购，可节省高达444美元。

旧金山 | 2025年10月27-29日

立即注册

有些流程的测试难度可能超乎你的想象。如果我上周被问到，我会把AI生成的视频归类到“难以测试”的范畴。但OpenAI最新发布的Sora 2模型所取得的巨大进步表明，情况可能并非如此。在Sora 2中，物体不再凭空出现或消失。人脸能够保持一致性，看起来像特定的个体，而不仅仅是一堆特征的组合。Sora 2的片段在**明显**和**微妙**的层面上都遵循了物理定律。我猜测，如果你深入探究，会发现这些质量的提升都得益于一个强大的强化学习系统。将这些因素整合起来，就造就了照片级真实感与娱乐性幻觉之间的区别。

需要明确的是，这并非人工智能领域不可动摇的铁律。它源于强化学习在当前AI发展中的核心地位，随着模型的发展，这种情况可能会改变。但是，只要RL仍然是将AI产品推向市场的首要工具，强化学习鸿沟就会持续扩大——这对初创企业和整个经济体都将产生深远影响。如果一个流程恰好位于强化学习鸿沟的“有利”一侧，那么初创公司很可能会成功地将其自动化——而目前从事该工作的人可能就需要寻找新的职业方向了。例如，哪些医疗服务是可以通过RL进行训练的，这个问题对未来20年经济格局的走向有着巨大的影响。如果Sora 2这样的惊喜可以作为参考，我们可能不必等待太久就能找到答案。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

“强化学习鸿沟”：为何某些AI技能的提升速度远超其他？

AI能力发展的不平衡：被忽视的“强化学习鸿沟”

为何编程是强化学习的“完美温床”？

加入Disrupt 2025，与1万多名科技和风险投资领袖共同成长与连接

评论区