目 录CONTENT

文章目录

推出 GPT‑5.3‑Codex‑Spark:专为 Codex 实时编程打造的极速模型

Administrator
2026-02-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/introducing-gpt-5-3-codex-spark

原文作者:OpenAI


2026年2月12日

GPT‑5.3‑Codex‑Spark 亮相

专为 Codex 实时编程打造的极速模型。

今日,我们推出 GPT‑5.3‑Codex‑Spark 研究预览版。作为 GPT‑5.3‑Codex 的轻量化版本,它是我们首款专为“实时编程”场景设计的模型。Codex-Spark 标志着我们与 Cerebras 合作的首个里程碑。自 1 月份宣布建立合作伙伴关系以来⁠,双方共同推进了这一成果。Codex-Spark 经过优化,在超低延迟硬件上提供服务时可带来近乎即时的体验,同时在实际编程任务中保持强大的能力,每秒可处理超过 1,000 个 Token

我们现向 ChatGPT Pro 用户在 Cerebras 平台上开放 Codex-Spark 的研究预览版。这不仅能让开发者尽早开始探索,也为我们赢得了宝贵时间。我们将继续与 Cerebras 合作,同步扩容数据中心、优化端到端体验,并部署体量更大的前沿模型。

我们最新的前沿模型在处理长周期任务方面展现出卓越实力,能够自主运行数小时、数天甚至数周而无需人工干预。而 Codex-Spark 则是我们首款专为 Codex 实时交互而设计的模型:无论是精准编辑、重构逻辑,还是优化界面,都能获得立竿见影的效果。至此,Codex 实现了全场景覆盖:既能胜任宏大复杂的长周期任务,也能满足即时开发需求。我们期待通过开发者的实战反馈,不断迭代并扩大访问权限。

发布初期,Codex-Spark 支持 128k 上下文窗口,且仅限文本输入。在研究预览阶段,Codex-Spark 将拥有独立的速率限制 (Rate Limit),其消耗不计入标准额度。但请注意,在高峰时段,为了保障系统整体的可靠性,用户可能会遇到访问受限或进入排队队列的情况。

速度与智能的平衡

Codex-Spark 专为那些“响应延迟”与“智能程度”同样重要的交互式任务而优化。你可以实时与模型协作,在它工作时随时打断或重定向,并通过几乎即时的响应快速迭代。为了极致的速度,Codex-Spark 保持了轻量级的工作风格:它只进行最少、最精准的局部编辑;除非你明确要求,否则不会自动运行测试。

编码

作为一款针对快速推理优化的高性能轻量级模型,在评估智能体软件工程能力的两个基准测试 SWE-Bench ProTerminal-Bench 2.0 中,GPT‑5.3‑Codex‑Spark 在完成任务时展现出强劲的性能,其所需时间仅为 GPT‑5.3‑Codex 的一小部分。

时长估算为以下部分之和:(1) 输出生成时间(输出 Token 数 ÷ 采样速度),(2) 预填充时间(预填充 Token 数 ÷ 预填充速度),(3) 工具执行总时间,以及 (4) 网络开销总量。

全线模型的延迟优化

在训练 Codex-Spark 的过程中,我们意识到:对于实时协作而言,模型本身的速度只是核心要素之一 — 我们还必须降低整个请求-响应链路的延迟。为此,我们在测试框架 (Harness) 中实现了端到端的延迟优化,所有模型都将从中受益。在底层架构上,我们精简了客户端与服务器之间的流式传输逻辑,重写了推理栈的核心组件,并重构了会话初始化流程,从而缩短了首个 Token 出现的时间,确保 Codex 在你迭代代码时保持极速响应。通过引入 WebSocket 长连接并针对 Responses API 进行深度优化,我们将客户端与服务器之间的单次往返开销 (Roundtrip Overhead) 降低了 80%,单 Token 开销降低了 30%,首字延迟 (Time-to-first-token) 缩短了 50%。WebSocket 路径默认已为 Codex-Spark 启用,并且很快将成为所有模型的默认设置。

由 Cerebras 驱动

Codex-Spark 运行在 Cerebras 的 Wafer Scale Engine 3⁠(晶圆级引擎)之上 — 这是一款专为高速推理打造的 AI 加速器,为 Codex 提供了“延迟优先”的服务层。我们与 Cerebras 合作,将这一低延迟路径集成到了与现有集群一致的生产服务栈中。这确保了它能与 Codex 完美融合,并为未来支持更多模型打下了基础。

“GPT-5.3-Codex-Spark 最令我们兴奋的地方在于,能与 OpenAI 及开发者社区共同探索‘极速推理’带来的无限可能:全新的交互模式、全新的应用场景,以及从根本上颠覆以往的模型体验。目前的预览版仅仅是一个开始。” — Sean Lie,Cerebras 首席技术官兼联合创始人

GPU 依然是我们训练与推理管线的基石,能为大规模通用场景提供最具性价比的算力。而 Cerebras 则是对这一基石的有力补充:它在追求极致低延迟的工作流中表现卓越,进一步收紧了端到端反馈环,让你在迭代代码时感受到 Codex 更敏捷的响应。GPUCerebras 可以结合用于单个工作负载,以达到最佳性能。

可用性及详情

Codex-Spark 研究预览版今日起面向 ChatGPT Pro 用户开放。你可以在最新版本的 Codex 应用、CLI(命令行工具)以及 VS Code 扩展中使用它。由于该模型运行在专用的低延迟硬件上,其使用受独立速率限制约束,预览期间可能会根据需求实时调整。此外,我们正向一小部分深度设计合作伙伴 (Design Partner) 开放 Codex-Spark 的 API 权限,以研究开发者如何将该模型集成到自己的产品中。随着我们在实际工作负载下不断优化集成表现,我们将在未来几周逐步扩大开放范围。

目前 Codex-Spark 仅支持文本,具备 128k 上下文窗口。它是我们极速模型家族的首名成员。随着我们与开发者社区共同探索极速模型在编程领域的应用潜力,我们将推出更多功能,包括更大的模型体量、更长的上下文以及多模态输入支持。

在安全方面,Codex-Spark 接受了与我们主线模型相同的安全训练,包括针对网络安全的专项强化。在标准的部署评估流程中,我们对 Codex-Spark 的网络安全及其他能力进行了基准测试。评估结果表明,该模型目前并不具备达到我们《准备框架》(Preparedness Framework) 中网络安全或生物学领域“高能力”阈值的可能性。

下一步发展

Codex-Spark 的发布,标志着 Codex 向“双模式互补”迈出了第一步:一种是长周期推理与执行模型,另一种则是用于快速迭代的实时协作模型。随着时间的推移,这两种模式将深度融合。Codex 既能让你保持紧凑的交互反馈环,同时又能将长耗时任务委托给后台的子智能体 (Sub-agent)。或者,当你需要兼顾深度与速度时,它可以并行调度多个模型分发任务。你不再需要预先在不同模式间做二选一。

随着模型能力的持续增强,交互速度已成为明显的瓶颈。极速推理缩短了反馈路径,不仅让 Codex 的使用体验更加自然,也为所有将创意转化为运行软件的开发者带来无限可能。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区