📢 转载信息

原文链接：https://openai.com/index/introducing-gpt-5-3-codex-spark

原文作者：OpenAI

2026年2月12日

GPT‑5.3‑Codex‑Spark 亮相

专为 Codex 实时编程打造的极速模型。

今日，我们推出 GPT‑5.3‑Codex‑Spark 研究预览版。作为 GPT‑5.3‑Codex 的轻量化版本，它是我们首款专为“实时编程”场景设计的模型。Codex-Spark 标志着我们与 Cerebras 合作的首个里程碑。自 1 月份宣布建立合作伙伴关系以来⁠，双方共同推进了这一成果。Codex-Spark 经过优化，在超低延迟硬件上提供服务时可带来近乎即时的体验，同时在实际编程任务中保持强大的能力，每秒可处理超过 1,000 个 Token。

我们现向 ChatGPT Pro 用户在 Cerebras 平台上开放 Codex-Spark 的研究预览版。这不仅能让开发者尽早开始探索，也为我们赢得了宝贵时间。我们将继续与 Cerebras 合作，同步扩容数据中心、优化端到端体验，并部署体量更大的前沿模型。

我们最新的前沿模型在处理长周期任务方面展现出卓越实力，能够自主运行数小时、数天甚至数周而无需人工干预。而 Codex-Spark 则是我们首款专为 Codex 实时交互而设计的模型：无论是精准编辑、重构逻辑，还是优化界面，都能获得立竿见影的效果。至此，Codex 实现了全场景覆盖：既能胜任宏大复杂的长周期任务，也能满足即时开发需求。我们期待通过开发者的实战反馈，不断迭代并扩大访问权限。

发布初期，Codex-Spark 支持 128k 上下文窗口，且仅限文本输入。在研究预览阶段，Codex-Spark 将拥有独立的速率限制 (Rate Limit)，其消耗不计入标准额度。但请注意，在高峰时段，为了保障系统整体的可靠性，用户可能会遇到访问受限或进入排队队列的情况。

速度与智能的平衡

Codex-Spark 专为那些“响应延迟”与“智能程度”同样重要的交互式任务而优化。你可以实时与模型协作，在它工作时随时打断或重定向，并通过几乎即时的响应快速迭代。为了极致的速度，Codex-Spark 保持了轻量级的工作风格：它只进行最少、最精准的局部编辑；除非你明确要求，否则不会自动运行测试。

编码

作为一款针对快速推理优化的高性能轻量级模型，在评估智能体软件工程能力的两个基准测试 SWE-Bench Pro 和 Terminal-Bench 2.0 中，GPT‑5.3‑Codex‑Spark 在完成任务时展现出强劲的性能，其所需时间仅为 GPT‑5.3‑Codex 的一小部分。

时长估算为以下部分之和：(1) 输出生成时间（输出 Token 数 ÷ 采样速度），(2) 预填充时间（预填充 Token 数 ÷ 预填充速度），(3) 工具执行总时间，以及 (4) 网络开销总量。

全线模型的延迟优化

在训练 Codex-Spark 的过程中，我们意识到：对于实时协作而言，模型本身的速度只是核心要素之一 — 我们还必须降低整个请求-响应链路的延迟。为此，我们在测试框架 (Harness) 中实现了端到端的延迟优化，所有模型都将从中受益。在底层架构上，我们精简了客户端与服务器之间的流式传输逻辑，重写了推理栈的核心组件，并重构了会话初始化流程，从而缩短了首个 Token 出现的时间，确保 Codex 在你迭代代码时保持极速响应。通过引入 WebSocket 长连接并针对 Responses API 进行深度优化，我们将客户端与服务器之间的单次往返开销 (Roundtrip Overhead) 降低了 80%，单 Token 开销降低了 30%，首字延迟 (Time-to-first-token) 缩短了 50%。WebSocket 路径默认已为 Codex-Spark 启用，并且很快将成为所有模型的默认设置。

由 Cerebras 驱动

Codex-Spark 运行在 Cerebras 的 Wafer Scale Engine 3⁠（晶圆级引擎）之上 — 这是一款专为高速推理打造的 AI 加速器，为 Codex 提供了“延迟优先”的服务层。我们与 Cerebras 合作，将这一低延迟路径集成到了与现有集群一致的生产服务栈中。这确保了它能与 Codex 完美融合，并为未来支持更多模型打下了基础。

“GPT-5.3-Codex-Spark 最令我们兴奋的地方在于，能与 OpenAI 及开发者社区共同探索‘极速推理’带来的无限可能：全新的交互模式、全新的应用场景，以及从根本上颠覆以往的模型体验。目前的预览版仅仅是一个开始。” — Sean Lie，Cerebras 首席技术官兼联合创始人

GPU 依然是我们训练与推理管线的基石，能为大规模通用场景提供最具性价比的算力。而 Cerebras 则是对这一基石的有力补充：它在追求极致低延迟的工作流中表现卓越，进一步收紧了端到端反馈环，让你在迭代代码时感受到 Codex 更敏捷的响应。GPU 和 Cerebras 可以结合用于单个工作负载，以达到最佳性能。

可用性及详情

Codex-Spark 研究预览版今日起面向 ChatGPT Pro 用户开放。你可以在最新版本的 Codex 应用、CLI（命令行工具）以及 VS Code 扩展中使用它。由于该模型运行在专用的低延迟硬件上，其使用受独立速率限制约束，预览期间可能会根据需求实时调整。此外，我们正向一小部分深度设计合作伙伴 (Design Partner) 开放 Codex-Spark 的 API 权限，以研究开发者如何将该模型集成到自己的产品中。随着我们在实际工作负载下不断优化集成表现，我们将在未来几周逐步扩大开放范围。

目前 Codex-Spark 仅支持文本，具备 128k 上下文窗口。它是我们极速模型家族的首名成员。随着我们与开发者社区共同探索极速模型在编程领域的应用潜力，我们将推出更多功能，包括更大的模型体量、更长的上下文以及多模态输入支持。

在安全方面，Codex-Spark 接受了与我们主线模型相同的安全训练，包括针对网络安全的专项强化。在标准的部署评估流程中，我们对 Codex-Spark 的网络安全及其他能力进行了基准测试。评估结果表明，该模型目前并不具备达到我们《准备框架》(Preparedness Framework) 中网络安全或生物学领域“高能力”阈值的可能性。

下一步发展

Codex-Spark 的发布，标志着 Codex 向“双模式互补”迈出了第一步：一种是长周期推理与执行模型，另一种则是用于快速迭代的实时协作模型。随着时间的推移，这两种模式将深度融合。Codex 既能让你保持紧凑的交互反馈环，同时又能将长耗时任务委托给后台的子智能体 (Sub-agent)。或者，当你需要兼顾深度与速度时，它可以并行调度多个模型分发任务。你不再需要预先在不同模式间做二选一。

随着模型能力的持续增强，交互速度已成为明显的瓶颈。极速推理缩短了反馈路径，不仅让 Codex 的使用体验更加自然，也为所有将创意转化为运行软件的开发者带来无限可能。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

推出 GPT‑5.3‑Codex‑Spark：专为 Codex 实时编程打造的极速模型