📢 转载信息
原文链接:https://openai.com/index/gpt-5-1-codex-max
原文作者:OpenAI
发布于 2025年11月19日
推出 GPT-5.1-Codex-Max:构建更多应用
今天,我们在Codex中推出了GPT‑5.1-Codex-Max,这是我们面向前沿智能体(agentic)编程模型。GPT‑5.1-Codex-Max建立在我们基础推理模型的更新之上,该模型经过了软件工程、数学、研究等领域的代理任务训练。GPT‑5.1-Codex-Max在开发周期的每一个阶段都更快、更智能、更具Token效率——这是我们迈向成为可靠编程伙伴的又一步。
GPT‑5.1-Codex-Max专为长期、详细的工作而设计。它是我们第一个原生训练的模型,能够通过一种称为compaction(紧凑化)的过程跨多个上下文窗口运行,在单个任务中连贯地处理数百万个Token。这解锁了项目级重构、深度调试会话和长达数小时的智能体循环。
GPT‑5.1-Codex-Max现已在Codex的CLI、IDE扩展、云和代码审查中可用,API访问即将推出。
前沿编程能力
GPT‑5.1-Codex-Max在真实世界的软件工程任务上进行了训练,例如PR创建、代码审查、前端编码和问答,在许多前沿编码评估中,其性能优于我们之前的模型。该模型在基准测试上的提升也伴随着现实世界使用中的改进:GPT‑5.1-Codex-Max是我们第一个训练用于在Windows环境中运行的模型,并且模型的训练现在包括旨在使其成为Codex CLI中更好合作伙伴的任务。
* 所有评估均在启用compaction且推理效果设置为“Extra High”(极高)的情况下运行
* Terminal-Bench2.0 使用 Codex CLI 在 Laude Institute Harbor harness(在新窗口中打开) 上运行
速度与成本
由于更有效的推理,GPT‑5.1-Codex-Max在Token效率方面显示出显著改进。在SWE-bench Verified测试中,使用“medium”(中等)推理效果的GPT‑5.1-Codex-Max,在消耗比同等推理效果的GPT‑5.1-Codex少30%的思考Token的情况下,实现了更好的性能。对于非延迟敏感的任务,我们还引入了Extra High(‘xhigh’)新的推理效果设置,它会思考更长的时间以获得更好的答案。我们仍然建议将“medium”作为大多数任务的日常驱动设置。
我们预计Token效率的提高将转化为开发人员在现实世界中的节省。
例如,GPT‑5.1-Codex-Max能够以远低于GPT‑5.1-Codex的成本,生成具有相似功能和美学效果的高质量前端设计。
提示: 生成一个单一的自包含浏览器应用程序,使用canvas图形、一个微小的策略梯度控制器、指标和一个SVG网络可视化器来渲染一个交互式的CartPole RL沙箱。
功能要求
必须能够实际训练策略以使模型在CartPole问题上表现更好在模型训练或推理时可视化激活/权重当前情节的步数、本情节的奖励上一次存活时间和最佳存活时间(步数)
保存到 index.html
长期任务
Compaction(紧凑化)使GPT‑5.1-Codex-Max能够完成以前因上下文窗口限制而失败的任务,例如复杂的重构和长期的智能体循环,它通过修剪历史记录同时保留长期内最重要的上下文来实现这一点。在Codex应用程序中,当GPT‑5.1-Codex-Max接近其上下文窗口限制时,它会自动对其会话进行compaction,为其提供一个新的上下文窗口。它会重复此过程直到任务完成。
能够在长时间内维持连贯工作的能力是通往更通用、更可靠的AI系统的基础能力。GPT‑5.1-Codex-Max可以独立工作数小时。在我们内部评估中,我们观察到GPT‑5.1-Codex-Max在任务上工作超过24小时。它将持续迭代其实现、修复测试失败,并最终交付成功的结果。
在此示例中,GPT‑5.1-Codex-Max正在独立重构Codex CLI的开源仓库。
当会话长度接近模型的上下文窗口时,它会自动对其会话进行compaction,从而在不丢失进度的前提下释放空间以继续执行任务。
为清晰起见,视频已剪辑和加速。
构建安全可靠的AI智能体
GPT‑5.1-Codex-Max在需要持续、长期推理的评估中表现明显更好。由于它能够使用compaction跨多个上下文窗口进行连贯工作,该模型在长期编码和网络安全等领域的挑战中提供了改进的结果。我们在GPT‑5.1-Codex-Max 系统卡中分析了该模型在第一方和第三方评估中的性能结果。
根据我们的Preparedness Framework,GPT‑5.1-Codex-Max在网络安全方面未达到High capability(高能力)水平,但它是我们迄今为止部署的最有能力的网络安全模型,并且智能体网络安全能力正在迅速发展。因此,我们正在采取措施为网络安全方面的高能力水平做准备,并正在加强我们在网络领域的安全措施,并通过Aardvark等计划,努力确保防御者能够受益于这些改进的能力。
当我们发布GPT‑5-Codex时,我们实施了专门的网络安全监控,以检测和阻止恶意活动。虽然我们没有观察到规模化滥用的有意义增加,但我们正在为更高级的功能准备额外的缓解措施。我们的团队已经阻止了试图滥用我们模型的网络操作,并且可疑活动将通过我们的策略监控系统路由进行审查。
Codex默认设计在安全沙箱中运行:文件写入仅限于其工作区,并且除非开发人员开启网络访问,否则网络访问将被禁用。我们建议将Codex保持在此受限访问模式,因为启用互联网或网络搜索可能会带来来自不可信内容的prompt-injection(提示注入)风险。
随着Codex在处理长期任务方面变得越来越有能力,开发人员在进行更改或部署到生产环境之前审查智能体的工作变得越来越重要。为此,Codex会生成终端日志并引用其工具调用和测试结果。虽然它的代码审查降低了将模型或人为产生的错误部署到生产中的风险,但Codex应被视为额外的审查者,而不是替代人工审查的工具。
网络安全能力可用于防御和攻击,因此我们采取了迭代部署方法:从现实世界的使用中学习,更新安全措施,并保留自动化的漏洞扫描和修复协助等重要的防御工具。
可用性
GPT‑5.1-Codex-Max在拥有ChatGPT Plus、Pro、Business、Edu和Enterprise计划的Codex用户中可用。有关您的计划如何运作的详细信息,请参阅我们的文档(在新窗口中打开)。
对于通过API密钥使用Codex CLI的开发人员,我们计划很快在API中提供GPT‑5.1-Codex-Max。
从今天开始,GPT‑5.1-Codex-Max将取代GPT‑5.1-Codex,成为Codex界面中的默认模型。与通用模型GPT‑5.1不同,我们建议仅在Codex或类似Codex的环境中将GPT‑5.1-Codex-Max和Codex系列模型用于智能体编码任务。
总结
GPT‑5.1-Codex-Max展示了模型在维持长期编码任务、管理复杂工作流程以及以更少的Token生成高质量实现方面取得了多大的进步。我们看到该模型与Codex CLI、IDE扩展、云集成和代码审查工具的持续升级相结合,带来了工程生产力的飞跃:在OpenAI内部,95%的工程师每周使用Codex,并且自从采用Codex以来,这些工程师提交的Pull Request数量大约增加了70%。当我们不断推动智能体能力的前沿时,我们很高兴看到您将用它们来构建什么。
附录:模型评估
|
GPT‑5.1-Codex (high) |
GPT‑5.1-Codex-Max (xhigh) |
|
|
SWE-bench Verified (n=500) |
73.7% |
77.9% |
|
SWE-Lancer IC SWE |
66.3% |
79.9% |
|
Terminal-Bench 2.0 |
52.8% |
58.1% |
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区