目 录CONTENT

文章目录

介绍 GPT-5.3-Codex

Administrator
2026-02-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/introducing-gpt-5-3-codex

原文作者:OpenAI


2026年2月5日

我们正在介绍一个能解锁Codex更多潜力的新模型:GPT‑5.3-Codex,它是迄今为止能力最强的Agentic编码模型。该模型在GPT‑5.2-Codex的前沿编码性能,以及GPT‑5.2的推理和专业知识能力上均有提升,并将两者集成于一身,同时速度提升了25%。这使其能够承担涉及研究、工具使用和复杂执行的长期任务。就像一位同事一样,您可以在GPT‑5.3-Codex工作时与它进行引导和互动,而不会丢失上下文。

GPT‑5.3‑Codex是第一个在创建自身过程中发挥了重要作用的模型。Codex团队使用早期版本来调试自身的训练、管理自身的部署,并诊断测试结果和评估——我们的团队对Codex能够加速自身开发的能力感到非常震惊。

有了GPT‑5.3-Codex,Codex从一个可以编写和审查代码的Agent,演变为一个几乎可以完成开发者和专业人士在计算机上能做的任何事情的Agent。

前端Agentic能力

GPT‑5.3-Codex在SWE-Bench Pro和Terminal-Bench上创下了行业新高,并在OSWorld和GDPval上表现强劲。这四个基准测试用于衡量我们的编码、Agentic和现实世界能力。

编码

GPT‑5.3-Codex在SWE-Bench Pro上实现了最先进的性能,这是一个对真实世界软件工程的严格评估。SWE‑bench Verified仅测试Python,而SWE-Bench Pro涵盖四种语言,抗污染能力更强,更具挑战性、多样性和行业相关性。它也远远超过了Terminal-Bench 2.0之前的最佳性能,该测试衡量了像Codex这样的编码Agent所需的终端技能。值得注意的是,GPT‑5.3‑Codex使用的Token比任何先前模型都少,使用户可以构建更多内容。

SWE-Bench Pro results visualization

Web开发

结合前沿的编码能力、美学改进和压缩结果,该模型能够在几天内从头开始构建高度复杂且功能强大的游戏和应用程序,完成惊人的工作。为了测试模型的Web开发和长期Agentic能力,我们要求GPT‑5.3-Codex为我们构建两款游戏:《Codex应用启动》中的竞速游戏第二版,以及一款潜水游戏。使用develop web game技能和预先选定的、通用的后续提示,如“修复bug”或“改进游戏”,GPT‑5.3-Codex自主迭代了这些游戏,处理了数百万个Token。观看预告片并亲自试玩这些游戏,看看Codex能做什么。

Racing Game v2 Trailer

一款竞速游戏,包含不同的赛车手、八张地图,甚至还有可以用空格键使用的道具。在此亲自试玩

Diving Game Trailer

一款潜水游戏,您可以在其中探索各种珊瑚礁,收集所有物品以完成您的鱼类图鉴,同时管理氧气、压力和危险。在此亲自试玩

与GPT‑5.2-Codex相比,GPT‑5.3-Codex在理解您要求它制作日常网站时的意图方面也更胜一筹。简单或未明确指定的提示现在默认会生成具有更多功能和合理默认设置的网站,为您带来更强大的起点画布,以实现您的想法。

例如,我们要求GPT‑5.3-Codex和GPT‑5.2-Codex构建了下面的两个登陆页面。GPT‑5.3-Codex自动将年度计划显示为折扣月度价格,使折扣感觉清晰且有意图,而不是简单地将年度总额相乘。它还创建了一个自动过渡的推荐轮播,包含三个不同的用户引述,而不是一个,默认情况下使页面感觉更完整、更具生产就绪性。

Landing Page Comparison

提示 (Prompt): 构建一个名为Quiet KPI的创始人友好型每周指标摘要的登陆页面。美学风格为柔和SaaS风,玻璃质感卡片,薰衣草到蓝色的渐变,微妙的模糊效果。包含:英雄区(带邮件捕获)、示例报告卡片网格、集成行、推荐轮播、定价切换(月度/年度)、常见问题解答、页脚。
- 字体:Satoshi或类似的几何无衬线字体。
- 按钮:圆角柔和,14px半径,强烈的焦点状态。
- 添加一个有品位的滚动揭示效果。

超越编码

软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。GPT‑5.3‑Codex旨在支持软件生命周期中的所有工作——调试、部署、监控、撰写PRD、编辑文案、用户研究、测试、指标分析等等。其Agentic能力超越了软件,可以帮助您构建任何您想构建的东西——无论是幻灯片还是在表格中分析数据。

利用类似于我们之前GDPval结果中使用的自定义技能,GPT‑5.3-Codex在专业知识工作方面的表现也同样强劲,正如GDPval所衡量的那样,与GPT‑5.2持平。GDPval是OpenAI于2025年发布的一项评估,用于衡量模型在44个职业的规范化知识工作任务上的表现。这些任务包括制作演示文稿、电子表格以及其他工作产品。

以下是该Agent产生的一些工作示例。

提示 + 任务背景

您是一家财富管理公司的财务顾问。您注意到许多客户向外勤顾问咨询,希望将定期存单(CDs)转为当地银行提供的浮动年金。市场回报率的诱惑和终生获得月度付款的保障是一个非常有吸引力的提议,但这不是一个审慎的投资决策。您的任务是创建一个包含10张幻灯片的PowerPoint演示文稿,用于向本公司外勤顾问分享关于为什么财务顾问作为受托人,应强烈反对做出此项投资决定的谈话要点。

这份演示文稿将最终在公司内部向外勤顾问展示,应重点强调以下信息:

  • 比较FINRA提供的定期存单和浮动年金的不同特征,提醒投资者注意风险
  • 比较风险回报分析及其对增长的影响
  • 区分两种工具的罚金差异
  • 对比风险承受能力,强调根据NAIC最佳利益法规确定的适当性
  • 强调FINRA的担忧/问题
  • 强调NAIC的问题/法规

由于浮动年金产品的复杂性,NAIC和FINRA在建议销售浮动年金时制定了最佳利益和适当性指南。演示文稿中提供的信息将使顾问能够有效地提供符合客户最大利益的审慎建议。

请在起草演示文稿时考虑以下网络资源:

https://content.naic.org/sites/default/files/government-affairs-brief-annuity-suitability-best-interest-model.pdf

https://www.finra.org/investors/insights/high-yield-cds

GPT-5.3-Codex 输出

金融建议幻灯片示例

GDPval中的每项任务都是由经验丰富的专业人士设计的,反映了其职业中真实的知识工作。

OSWorld是一个Agentic计算机使用基准测试,Agent必须在一个视觉化的桌面电脑环境中完成生产力任务。GPT‑5.3-Codex展示了比以前的GPT模型远为强大的计算机使用能力。

在OSWorld-Verified中,模型使用视觉能力来完成多样化的计算机任务。人类得分约为~72%。

这些跨编码、前端、计算机使用和现实世界任务的结果表明,GPT‑5.3-Codex不仅仅是在单个任务上表现更好,它标志着向一个单一的、通用型Agent的飞跃,该Agent能够在整个现实世界技术工作的范围内进行推理、构建和执行。

交互式协作者

随着模型能力的增强,差距从Agent能做什么,转移到了人类可以多容易地与许多并行工作的Agent进行交互、指导和监督。Codex应用程序使管理和指导Agent变得更加容易,现在有了GPT‑5.3-Codex,它也更具交互性。通过新模型,Codex会提供频繁的更新,让您随时了解其工作过程中的关键决策和进展。您无需等待最终输出,可以实时互动——提问、讨论方法、并引导解决方案。GPT‑5.3-Codex会解释它正在做的事情,回应反馈,并让您从头到尾保持知情。

Follow-up behavior setting

设置 > 通用 > 跟进行为中启用模型工作时的引导功能。

我们如何使用Codex来训练和部署GPT‑5.3-Codex

Codex近期的快速改进建立在OpenAI跨越数月或数年的研究项目成果之上。这些研究项目正被Codex加速,OpenAI的许多研究人员和工程师表示,他们今天的工作方式与仅仅两个月前相比,从根本上发生了变化。即使是GPT‑5.3-Codex的早期版本也展示了卓越的能力,使我们的团队能够与这些早期版本合作,以改进训练并支持后续版本的部署。

Codex对非常广泛的任务都有用,因此难以完全列举它帮助我们团队的方式。作为一些例子,研究团队使用Codex来监控和调试本次发布的训练运行。它加速了研究,而不仅仅是调试基础设施问题:它帮助跟踪训练过程中的模式,对交互质量进行了深入分析,提出了修复方案,并构建了丰富的人类研究人员可以精确理解模型行为与先前模型不同的应用。

工程团队使用Codex来优化和调整GPT‑5.3-Codex的运行环境(harness)。当看到影响用户的奇怪边缘案例时,团队成员使用Codex来识别上下文渲染错误,并找出缓存命中率低的原因。GPT‑5.3-Codex在整个发布过程中继续帮助团队,通过动态扩展GPU集群以应对流量激增并保持延迟稳定。

在Alpha测试期间,一位研究人员想了解GPT‑5.3-Codex每轮能完成多少额外工作以及相关的生产力差异。GPT‑5.3-Codex提出了几种简单的正则表达式分类器,用于估算澄清频率、用户积极和消极反应、任务进展情况,然后将它们可扩展地应用于所有会话日志,并生成了一份包含其结论的报告。使用Codex的人们更高兴,因为Agent更好地理解了他们的意图,并且每轮都能取得更多进展,所需澄清问题更少。

由于GPT‑5.3-Codex与前代产品非常不同,Alpha测试的数据显示了许多不寻常且违反直觉的结果。团队中的一位数据科学家与GPT‑5.3-Codex合作,构建了新的数据管道,并以比我们标准仪表盘工具所允许的更丰富的方式可视化结果。结果与Codex共同分析,Codex在不到三分钟内对数千个数据点总结了关键见解。

单独来看,所有这些任务都是Codex如何帮助研究人员和产品构建者的有趣示例。总而言之,我们发现这些新功能带来了对我们研究、工程和产品团队的强大加速

保障网络前沿

在过去的几个月里,我们在网络安全任务的模型性能上取得了显著的进步,使开发人员和安全专业人员都受益。与此同时,我们一直在准备加强网络安全防护,以支持防御性使用和更广泛的生态系统弹性。

根据我们的准备框架,GPT‑5.3-Codex是我们第一个在网络安全相关任务中被归类为高能力(High capability)的模型,也是我们第一个直接训练用于识别软件漏洞的模型。虽然我们没有确凿的证据表明它可以端到端地自动化网络攻击,但我们采取了预防措施,并部署了迄今为止最全面的网络安全安全堆栈。我们的缓解措施包括安全训练、自动化监控、对高级功能的信任访问,以及包括威胁情报在内的执行管道。

由于网络安全本质上是双用途的,我们采取了一种基于证据的、迭代的方法,加速防御者发现和修复漏洞的能力,同时减缓滥用行为。作为此举的一部分,我们正在启动“值得信赖的网络安全访问”(Trusted Access for Cyber)试点项目,以加速网络防御研究。

我们正在投资生态系统保障措施,例如扩展我们的安全研究Agent Aardvark的私有Beta测试,这是我们Codex安全产品和工具套件中的第一个产品,并与开源维护者合作,为广泛使用的项目(如Next.js)提供免费的代码库扫描——安全研究人员上周使用Codex发现了披露的漏洞。

在2023年启动的100万美元网络安全赠款计划的基础上,我们还承诺提供1000万美元的API积分,用于利用我们能力最强的模型来加速网络防御,特别是针对开源软件和关键基础设施系统。进行善意安全研究的组织可以通过我们的网络安全赠款计划申请API积分和支持。

可用性与详情

GPT‑5.3-Codex现已在所有可以访问Codex的地方提供付费ChatGPT计划用户使用:应用、CLI、IDE扩展和Web端。我们正在努力尽快安全地启用API访问。

通过这次更新,由于我们在基础设施和推理堆栈上的改进,Codex用户现在运行GPT‑5.3-Codex的速度也提高了25%,带来了更快的交互和更快的成果。

GPT‑5.3-Codex是与NVIDIA GB200 NVL72系统共同设计、使用其进行训练,并部署在其上的。我们感谢NVIDIA的合作。

后续工作

借助GPT‑5.3-Codex,Codex正在从编写代码转向将其用作操作计算机并端到端完成工作的工具。通过推动编码Agent的能力前沿,我们也在解锁更广泛的知识工作类别——从构建和部署软件到研究、分析和执行复杂任务。最初专注于成为最佳编码Agent的努力,现已成为一个更通用的计算机协作者的基础,扩大了谁可以构建以及使用Codex的可能性。

附录


GPT-5.3-Codex (xhigh)

GPT-5.2-Codex (xhigh)

GPT-5.2 (xhigh)

SWE-Bench Pro (公开)

56.8%

56.4%

55.6%

Terminal-Bench 2.0

77.3%

64.0%

62.2%

OSWorld-Verified

64.7%

38.2%

37.9%

GDPval (获胜或平局)

70.9%

-

70.9% (高)

网络安全夺旗挑战赛

77.6%

67.4%

67.7%

SWE-Lancer IC Diamond

81.4%

76.0%

74.6%




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区