📢 转载信息
原文链接:https://openai.com/index/introducing-gpt-5-3-codex
原文作者:OpenAI
2026年2月5日
我们正在推出一款能够解锁 Codex 更多潜力的全新模型:GPT‑5.3‑Codex,这是迄今为止能力最强的智能体编程模型。该模型将 GPT‑5.2‑Codex 的前沿编程性能与 GPT‑5.2 的推理及专业知识能力整合于一身,且运行速度提升了 25%。这使其能够承担涉及研究、工具使用和复杂执行的长期运行任务。就像同事一样,你可以在 GPT‑5.3‑Codex 工作时对其进行引导和交互,而不会丢失上下文。
GPT‑5.3‑Codex 是我们首个在自身创建过程中发挥了关键作用的模型。Codex 团队利用其早期版本来调试其自身的训练过程、管理自身的部署,并诊断测试结果与评估。我们的团队对 Codex 能够如此大幅度加速自身开发进程感到非常震惊。
凭借 GPT‑5.3‑Codex,Codex 从只能编写和审核代码的智能体,演变为几乎能完成开发者和专业人士在计算机上所做的一切工作的智能体。
前沿智能体能力
GPT‑5.3‑Codex 在 SWE-Bench Pro 和 Terminal-Bench 上创下了行业新高,并在 OSWorld 和 GDPval 上表现强劲。这四个基准测试是我们用来衡量编程、智能体能力以及真实世界处理能力的工具。
编码
GPT‑5.3‑Codex 在 SWE-Bench Pro 上达到了顶尖 (state-of-the-art) 水平,该基准是对真实世界软件工程能力的严格评估。SWE-bench Verified 仅测试 Python,而 SWE-Bench Pro 涵盖了四种编程语言,且具备更强的防污染性、挑战性、多样性,也更符合行业实际需求。此外,它在 Terminal-Bench 2.0 上的表现也远超之前的纪录,该基准主要衡量像 Codex 这样的编程智能体所需的终端操作技能。值得注意的是,GPT‑5.3‑Codex 实现这些成绩所消耗的 Token 比以往任何模型都要少,从而让用户能够构建更多内容。
Web 开发
结合前沿的编程能力、审美水平的提升以及模型压缩技术,该模型能够完成令人惊叹的工作,可以在几天时间内从零开始构建功能高度复杂的游戏和应用程序。为了测试该模型的 Web 开发和长时运行的智能体能力,我们要求 GPT‑5.3‑Codex 为我们构建两款游戏:一款是 Codex 应用发布时那款赛车游戏的第二版,另一款是潜水游戏。通过使用“开发 Web 游戏”技能以及预设的通用后续提示(如“修复漏洞”或“改进游戏”),GPT‑5.3‑Codex 消耗了数百万个 Token,自主进行了迭代开发。你可以观看预告片并亲自试玩这些游戏,见证 Codex 的实力。
一款赛车游戏,包含不同的赛车手、八张赛道地图,甚至还能用空格键触发道具。点击这里亲自体验(在新窗口中打开)!
一款潜水探索游戏,你将在各类珊瑚礁间探险,收集它们来完成你的鱼类图鉴,同时还要管理氧气、压力以及各种潜在危险。点击这里亲自体验(在新窗口中打开)!
与 GPT‑5.2‑Codex 相比,在要求构建日常网站时,GPT‑5.3‑Codex 也能更好地理解你的意向。对于简单或描述不详的提示,模型现在会默认生成功能更全、预设更合理的网站,为你提供更强大的初始画布来将创意变为现实。
例如,我们要求 GPT‑5.3‑Codex 和 GPT‑5.2‑Codex 分别构建下方的两个落地页。GPT‑5.3‑Codex 自动将年费计划显示为折算后的月度价格,使优惠显得清晰且更有针对性,而不是简单地计算年费总额。它还制作了一个自动切换的用户评价轮播图,包含三个不同的用户引用而非仅有一个,从而使生成的页面在默认情况下感觉更完整、更接近生产环境标准。
提示: 为 Quiet KPI 构建一个落地页,这是一款面向创业者的每周指标摘要工具。整体美学为柔和系 SaaS 风格,带有玻璃质感卡片、从薰衣草色到蓝色的渐变,以及轻微的模糊效果。页面结构包括:Hero 区(含邮箱收集)、示例报告卡片网格、集成展示区、客户评价轮播、价格切换(月付/年付)、FAQ 和页脚。
- 字体使用 Satoshi 或类似的几何无衬线体。
- 按钮采用柔和圆角(14px 半径),并具备明显的聚焦状态。
- 添加一处恰到好处的滚动触发式动效。
超越编程
软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。GPT‑5.3‑Codex 旨在支持软件生命周期中的所有工作,包括调试、部署、监控、编写公关需求文档 (PRD)、编辑文案、用户研究、测试、指标分析等。它的智能体能力不仅限于软件,还能帮助你构建任何想要的东西,无论是演示文稿还是分析表格中的数据。
通过使用类似于我们之前 GDPval 测试中所用的自定义技能,GPT‑5.3‑Codex 在专业知识型工作方面也表现强劲。根据 GDPval 的衡量,其表现与 GPT‑5.2 持平。GDPval 是 OpenAI 在 2025 年发布的一项评估,旨在衡量模型在 44 种职业中明确定义的知识型工作任务上的表现。这些任务包括制作演示文稿、电子表格以及其他工作产出。
以下是该智能体产出的一些工作示例。
提示 + 任务背景信息
GPT-5.3-Codex output
OSWorld 是一个智能体计算机使用基准测试,要求智能体在视觉桌面计算机环境中完成办公生产任务。GPT‑5.3‑Codex 展示了远强于以往 GPT 模型的计算机使用能力。
在 OSWorld-Verified 中,模型通过视觉能力来完成多样化的计算机任务。人类得分约为 72%。
综合来看,在编程、前端、计算机使用以及真实世界任务中的这些结果表明,GPT‑5.3‑Codex 不仅仅是在单个任务上表现更强,它标志着向单一、通用的智能体迈出了关键一步 — 这种智能体能够在全方位的真实世界技术工作中进行推理、构建和执行。
交互式协作伙伴
随着模型能力变得愈发强大,差距已从“智能体能做什么”转向“人类如何轻松地针对多个并行工作的智能体进行交互、引导和监督”。Codex 应用让管理和引导智能体变得更加简单,而现在配合 GPT‑5.3‑Codex,交互性得到了进一步提升。通过这一新模型,Codex 会提供频繁的状态更新,让你在它工作时随时掌握关键决策和进展。你无需等待最终输出,而是可以进行实时交互 — 提出问题、讨论方案并引导其走向解决方案。GPT‑5.3‑Codex 会详述其正在执行的操作,响应反馈,并让你全程参与其中。
在应用中运行模型时,可前往“设置 > 通用 > 后续行为”启用引导功能。
我们如何利用 Codex 训练并部署 GPT‑5.3‑Codex
Codex 近期实现的快速进步,建立在 OpenAI 各个团队跨越数月乃至数年的研究项目成果之上。这些研究项目正由 Codex 加速推动;OpenAI 的许多研究员和工程师表示,他们如今的工作性质与短短两个月前相比已发生了根本性的变化。即使是 GPT‑5.3‑Codex 的早期版本,也展现出了卓越的能力,使我们的团队能够利用这些早期版本来改进训练,并支持后续版本的部署工作。
Codex 可用于极其广泛的任务,以至于很难完全列举它帮助我们团队的所有方式。举例来说,研究团队利用 Codex 监控并调试了本次发布的训练运行。它对研究的加速不仅限于调试基础设施问题:它还帮助追踪了整个训练过程中的模式,对交互质量进行了深度分析,提出了修复方案,并为人类研究员构建了功能丰富的应用程序,以便精确了解该模型的行为与以往模型相比有何差异。
工程团队利用 Codex 优化并调整了 GPT‑5.3‑Codex 的测试框架 (harness)。当我们开始发现影响用户的奇特边缘案例时,团队成员利用 Codex 识别出了上下文渲染中的漏洞,并找到了导致低缓存命中率的根本原因。在整个发布过程中,GPT‑5.3‑Codex 持续帮助团队动态缩放 GPU 集群,以应对流量激增并保持延迟稳定。
在 Alpha 测试期间,一位研究员想要了解 GPT‑5.3‑Codex 在每轮对话中多完成了多少工作,以及相关的生产力差异。GPT‑5.3‑Codex 构思了几个简单的正则表达式分类器,用以评估澄清请求、用户正向与负面反馈以及任务进展的频率;随后,它将这些分类器在大规模会话日志上运行,并生成了一份带有结论的报告。使用 Codex 进行构建的人员感到更加满意,因为智能体能更好地理解他们的意向,且每轮对话的进展更多,所需的澄清问题更少。
由于 GPT‑5.3‑Codex 与其前代产品差异巨大,Alpha 测试的数据呈现出许多异常且违背直觉的结果。团队中的一位数据科学家与 GPT‑5.3‑Codex 合作构建了新的数据流水线,并以远超常规看板工具的方式,更丰富地实现结果可视化。随后,他们与 Codex 共同分析了结果,Codex 在不到三分钟的时间内,简明扼要地总结了数千个数据点中的关键洞察。
单独来看,所有这些任务都是 Codex 如何帮助研究人员和产品构建者的生动案例。综合而言,我们发现这些新能力为我们的研究、工程和产品团队带来了强大的加速效果。
守护网络安全前沿
近几个月来,我们看到模型在网络安全任务上的性能有了显著提升,这使开发者和安全专业人士共同受益。与此同时,我们一直在准备更强的网络安全保障措施,以支持防御性用途并增强整个生态系统的韧性。
GPT‑5.3‑Codex 是我们依据准备框架首个在网络安全相关任务中被评定为高能力的模型,也是我们首个直接训练用于识别软件漏洞的模型。虽然我们还没有确凿证据表明它可以实现端到端的自动化网络攻击,但我们正采取预防性措施,部署了迄今为止最全面的网络安全安全栈。我们的缓解措施包括安全训练、自动化监控、高级能力的受信访问,以及包含威胁情报在内的执行流水线。
由于网络安全本质上具有双重用途,我们正采取一种基于证据的迭代方法,在提升防御者发现并修复漏洞能力的同时减少滥用行为。为此,我们启用了网络安全受信访问 (Trusted Access for Cyber) 试点计划,以加速网络防御研究。
我们正在投资生态系统保障措施,例如扩大安全研究智能体 Aardvark 的私测范围,这是我们 Codex 安全产品和工具系列中的首款产品;同时,我们还与开源维护者合作,为 Next.js 等广泛使用的项目提供免费的代码库扫描。上周就有安全研究人员使用 Codex 发现并披露(在新窗口中打开)了相关漏洞。
基于我们 2023 年启动的 100 万美元网络安全资助计划,我们还承诺提供 1000 万美元的 API 额度,以利用我们最强大的模型加速网络防御,特别是针对开源软件和关键基础设施系统。从事善意 (good-faith) 安全研究的组织可以通过我们的网络安全资助计划申请 API 额度和支持。
可用性及详情
GPT‑5.3‑Codex 已通过 ChatGPT 付费套餐上线,涵盖所有你可以使用 Codex 的场景:应用、命令行界面 (CLI)、IDE 扩展以及网页端。我们正在努力,确保尽快安全地开放 API 访问。
得益于我们在基础设施和推理栈方面的改进,伴随此次更新,我们为 Codex 用户运行 GPT‑5.3‑Codex 的速度提升了 25%,从而带来了更快的交互体验和结果产出。
GPT‑5.3‑Codex 是针对 NVIDIA GB200 NVL72 系统共同设计、训练并提供服务的。我们对 NVIDIA 的合作伙伴关系深表感谢。
下一步发展
凭借 GPT‑5.3‑Codex,Codex 正从单纯的代码编写工具,演变为一个能将代码作为工具来操作计算机并完成端到端工作的智能体。通过推高编程智能体能力的上限,我们也在解锁更广泛的知识工作类别 — 从构建和部署软件到研究、分析及执行复杂任务。最初以打造“最强编程智能体”为目标的尝试,如今已成为构建更通用计算机协作伙伴的基础,这不仅扩大了“谁能进行构建”的受众范围,也拓展了 Codex 所能实现的无限可能。
附录
|
|
GPT-5.3-Codex (xhigh) |
GPT-5.2-Codex (xhigh) |
GPT-5.2 (xhigh) |
|
SWE-Bench Pro (Public) |
56.8% |
56.4% |
55.6% |
|
Terminal-Bench 2.0 |
77.3% |
64.0% |
62.2% |
|
OSWorld-Verified |
64.7% |
38.2% |
37.9% |
|
GDPval(胜出或持平) |
70.9% |
- |
70.9% (high) |
|
网络安全夺旗挑战 |
77.6% |
67.4% |
67.7% |
|
SWE-lancer IC Diamond |
81.4% |
76.0% |
74.6% |
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区