📢 转载信息
原文链接:https://openai.com/index/gpt-5-1-codex-max
原文作者:OpenAI
2025年11月19日
构建更多:推出 GPT-5.1-Codex-Max
我们正在推出 GPT‑5.1-Codex-Max,这是我们今天在Codex中推出的新前沿智能体式(agentic)编码模型。GPT‑5.1-Codex-Max基于我们基础推理模型的更新,该模型经过了软件工程、数学、研究等领域的智能体任务训练。GPT‑5.1-Codex-Max在开发周期的每个阶段都更快、更智能、更具Token效率,向成为可靠的编程伙伴迈出了新的一步。
GPT‑5.1-Codex-Max专为长时间、详细的工作而设计。它是我们首个原生训练的模型,可通过一种称为压缩(compaction)的过程跨多个上下文窗口运行,在单个任务中连贯地处理数百万个Token。这为项目规模的重构、深度调试会话和多小时的智能体循环解锁了新的可能性。
GPT‑5.1-Codex-Max今天已在Codex的CLI、IDE扩展、云端和代码审查中可用,API访问即将推出。
前沿编码能力
GPT‑5.1-Codex-Max使用真实世界的软件工程任务进行训练,例如创建Pull Request(PR)、代码审查、前端编码以及问答(Q&A),在许多前沿编码评估中,其性能优于我们以前的模型。该模型在基准测试上的提升也伴随着实际使用中的改进:GPT‑5.1-Codex-Max是首个我们训练为在Windows环境中运行的模型,并且模型的训练现在包括旨在使其成为Codex CLI中更好协作者的任务。
* 所有评估均在启用Extra High推理工作量的compaction下运行
* Terminal-Bench2.0 使用Laude Institute的Harbor套件在Codex CLI中运行:https://github.com/laude-institute/terminal-bench(在新窗口中打开)
速度与成本
由于推理效率更高,GPT‑5.1-Codex-Max在Token效率方面显示出显著的改进。在SWE-bench Verified测试中,使用‘medium’推理工作量的GPT‑5.1-Codex-Max的性能优于具有相同推理工作量的GPT‑5.1-Codex,但思考Token的使用量减少了30%。对于非延迟敏感的任务,我们还引入了新的Extra High(‘xhigh’)推理工作量,它会进行更长时间的思考以获得更好的答案。对于大多数任务,我们仍然建议使用medium作为日常驱动程序。
我们预计Token效率的提高将转化为开发人员在现实世界中的成本节省。
例如,GPT‑5.1-Codex-Max能够以远低于GPT‑5.1-Codex的成本,生成具有相似功能和美学效果的高质量前端设计。
Prompt: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.
Features
Must be able to actually train a policy to make model better at cart poleVisualizer for the activations/weights when the model is training or at inferenceSteps in the episode, rewards this episodeLast survival time and best survival time in steps
Save to index.html
长时间运行的任务
压缩使GPT‑5.1-Codex-Max能够完成以前因上下文窗口限制而失败的任务,例如复杂的重构和长时间运行的智能体循环,方法是在保留最重要上下文的同时修剪其历史记录。在Codex应用程序中,当会话接近其上下文窗口限制时,GPT‑5.1-Codex-Max会自动压缩会话,从而获得一个新的上下文窗口。它会重复此过程,直到任务完成。
在长时间跨度内维持连贯工作的能力是迈向更通用、更可靠的AI系统的基础能力。GPT‑5.1-Codex-Max可以独立工作数小时。在我们内部评估中,我们观察到GPT‑5.1-Codex-Max处理任务的时间超过24小时。它会持续迭代其实施、修复测试失败,并最终交付成功的结果。
在此示例中,GPT‑5.1-Codex-Max正在独立重构Codex CLI的开源存储库。
当会话长度接近模型的上下文窗口时,它会自动压缩会话,以便在不丢失进度的情况下继续执行任务。
为清晰起见,视频已修剪并加速播放。
构建安全可信赖的AI智能体
GPT‑5.1-Codex-Max在需要持续、长周期推理的评估中表现出色。因为它能使用压缩跨多个上下文窗口连贯工作,所以在长周期编码和网络安全等领域的挑战中取得了改进的结果。我们分析了该模型在GPT‑5.1-Codex-Max 系统卡中的首次和第三方评估结果。
根据我们的准备框架,GPT‑5.1-Codex-Max在网络安全方面尚未达到High能力水平,但它是我们迄今为止部署的最有能力的网络安全模型,并且智能体网络安全能力正在迅速发展。因此,我们正在采取措施为网络安全High能力做准备,并加强我们在网络领域的安全防护措施,同时致力于通过Aardvark等计划,确保防御者能够受益于这些改进的能力。
当我们发布GPT‑5-Codex时,我们实施了专门针对网络安全的服务端监控,以检测和阻止恶意活动。虽然我们没有观察到规模化滥用的显著增加,但我们正在为更高级的能力准备额外的缓解措施。我们的团队已经阻止了试图滥用我们模型的网络行动,可疑活动会通过我们的策略监控系统进行审核。
Codex默认设计为在安全沙箱中运行:文件写入限制在其工作区内,并且除非开发人员启用网络访问,否则网络访问将被禁用。我们建议将Codex保持在此受限访问模式下,因为启用互联网或网络搜索可能会引入来自不受信任内容的提示注入(prompt-injection)风险。
随着Codex处理长时间运行任务的能力增强,开发人员在更改或部署到生产环境之前审查智能体工作变得越来越重要。为了协助这一点,Codex会生成终端日志,并引用其工具调用和测试结果。虽然其代码审查降低了将模型或人为产生的错误部署到生产环境的风险,但Codex应被视为额外的审阅者,而不是人工审阅的替代品。
网络安全能力可用于防御和攻击,因此我们采取迭代部署方法:从现实世界的使用中学习,更新安全防护措施,并保留自动化漏洞扫描和修复协助等重要的防御工具。
可用性
GPT‑5.1-Codex-Max已在具有ChatGPT Plus、Pro、Business、Edu和Enterprise套餐的Codex中提供。有关您的套餐如何运作的限制详情,请参阅我们的文档(在新窗口中打开)。
对于通过API密钥使用Codex CLI的开发者,我们计划很快在API中提供GPT‑5.1-Codex-Max。
从今天开始,GPT‑5.1-Codex-Max将取代GPT‑5.1-Codex成为Codex界面中的默认模型。与通用模型GPT‑5.1不同,我们建议仅在Codex或类似Codex的环境中将GPT‑5.1-Codex-Max和Codex系列模型用于智能体编码任务。
结论
GPT‑5.1-Codex-Max展示了模型在维持长周期编码任务、管理复杂工作流程以及以更少Token生成高质量实现方面取得了多大的进步。我们看到该模型与Codex CLI、IDE扩展、云集成和代码审查工具的持续升级相结合,极大地提高了工程生产力:在OpenAI内部,95%的工程师每周使用Codex,自采用Codex以来,这些工程师提交的Pull Request数量约增加了70%。随着我们不断推进智能体能力的边界,我们期待看到您将用它们构建出什么样的产品。
附录:模型评估
|
GPT‑5.1-Codex (high) |
GPT‑5.1-Codex-Max (xhigh) |
|
|
SWE-bench Verified (n=500) |
73.7% |
77.9% |
|
SWE-Lancer IC SWE |
66.3% |
79.9% |
|
Terminal-Bench 2.0 |
52.8% |
58.1% |
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区