目 录CONTENT

文章目录

GPT-5.2-Codex 正式亮相:赋能复杂软件工程与网络安全防御

Administrator
2026-01-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/gpt-5-2-codex

原文作者:OpenAI


2025年12月18日

今天,我们正式发布 GPT‑5.2-Codex,这是迄今最前沿的智能体编码模型,赋能复杂的软件工程实践。GPT‑5.2-Codex 基于 GPT‑5.2,并针对 Codex 智能体编码进行了深度优化,具体改进包括:通过上下文压缩 (compaction) 提升长程任务执行能力、在大规模代码变更(如重构与迁移)中具备更出色的性能、在 Windows 环境下实现更优表现,以及在网络安全方面显著增强。


随着我们的模型不断在智能前沿取得进展,我们观察到这些提升也转化为在专业领域的能力飞跃,例如网络安全。就在上周,一位安全研究人员使用 GPT‑5.1-Codex-Max 搭配 Codex CLI,发现 React 中的漏洞,并负责任地进行披露(在新窗口中打开),该漏洞可能导致源代码泄露。


GPT‑5.2-Codex 拥有迄今为止最强大的网络安全能力。这些进步能够在大规模环境中提升网络安全,但同时也带来了新的双重用途风险,需要谨慎部署。尽管根据我们的“准备框架”,GPT‑5.2-Codex 尚未达到“高”水平的网络安全能力,但我们正在以未来能力增长为导向来设计部署方案


我们今天在所有 Codex 平台向付费 ChatGPT 用户推出 GPT‑5.2-Codex,并将在未来几周内逐步、安全地开放给 API 用户。同时,我们也在试行一项仅限邀请的“可信访问”计划,为经过审核的专业人士和专注于防御性网络安全工作的机构,提供即将上线的功能和更开放的模型。我们相信,这种部署方式能够在可用性与安全性之间取得良好平衡。

开拓软件工程新境界

GPT‑5.2-Codex 不仅继承了 GPT‑5.2 在专业领域的优势,还融合了 GPT‑5.1-Codex-Max 的前沿智能体编码与终端操作能力。凭借更出色的长上下文理解、可靠的工具调用、更高的事实准确性,以及原生的上下文压缩,GPT‑5.2-Codex 成为处理长期编码任务更值得信赖的伙伴,同时在推理过程中保持高效的 Token 使用。


GPT‑5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基准测试中取得了优异成绩。这些基准测试旨在评估智能体在真实终端环境中执行各种任务的表现。 在原生 Windows 环境中,其智能体编码表现也更加高效和可靠,进一步延展了 GPT‑5.1-Codex-Max 的前沿能力。


通过这些改进,Codex 在处理大型代码库和长时间会话时,能够更好地保持完整上下文。它可以更稳定地完成复杂任务,例如大规模重构、代码迁移和功能开发:即使计划发生变化或尝试失败,也能持续迭代而不丢失进度。


SWE-Bench Pro⁠⁠⁠⁠ 测试为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。Terminal-Bench 2.0 基准测试旨在评估 AI 智能体在实际终端环境中的能力,涵盖的任务包括编译代码、训练模型和配置服务器。

GPT‑5.2-Codex 能够更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。


Codex 可以将设计稿快速转化为可运行的原型,你也可以与 Codex 搭配使用,将这些原型进一步推向生产环境。


设计稿
设计稿,用于通过 Codex-5.2 生成网页原型
由 GPT-5.2-Codex 生成的原型

推动网络安全发展

在我们的一项核心网络安全评估中,通过性能变化曲线可以清晰看到:从 GPT‑5-Codex 开始能力出现显著跃升,随后在 GPT‑5.1-Codex-Max 上又有一次大幅提升,如今在 GPT‑5.2-Codex 上迎来了第三次飞跃。我们预计,未来的 AI 模型将继续沿着这一发展轨迹前进。为此,在进行规划与评估时,我们所持的标准是:假设每个新模型都可能达到准备框架⁠中“高”水平的网络安全能力。虽然 GPT‑5.2-Codex 尚未达到这一水平,但我们已为未来跨越这一门槛的模型做好充分准备。鉴于网络能力的提升,我们在模型和产品中增加了额外的安全防护措施,具体内容已在系统卡中详细说明。

专业夺旗赛 (CTF) 评测用于衡量模型在 Linux 环境中解决高级、多步骤的真实挑战的能力,模型需要具备专业级的网络安全技能。

现实世界的网络安全能力

现代社会依赖软件运行,而其可靠性取决于强大的网络安全保障:确保银行、医疗、通信和关键公共服务等重要系统保持在线,保护敏感数据,并让人们能够信任他们每天所依赖的软件。漏洞可能在无人察觉之前就已存在,而发现、验证和修复这些漏洞,往往依赖于一群配备合适工具的工程师和独立安全研究人员。


2025 年 12 月 11 日,React 团队公布了三个安全漏洞,它们影响那些使用 React Server Components 构建的应用。这次披露的特别之处不仅在于漏洞本身,更在于其发现过程。


Andrew MacPherson 是 Privy(Stripe 旗下公司)的首席安全工程师,他使用 GPT‑5.1-Codex-Max 搭配 Codex CLI 及其他编码代理,复现并研究另一个在前一周披露的严重 React 漏洞,该漏洞被称为 React2Shell ( (CVE-2025-55182(在新窗口中打开))。他的目标是评估该模型在现实漏洞研究中的辅助能力。


他起初尝试了几次零样本分析,引导模型审查补丁并识别其修复的漏洞。当这些方法未能奏效时,他转而采用高频率、迭代式的提示方法。他引导 Codex 完成标准的防御性安全工作流程,包括搭建本地测试环境、就潜在攻击面展开推理,并借助模糊测试,以非正常格式的输入对系统进行探测。在尝试复现最初的 React2Shell 漏洞时,Codex 暴露出一些值得进一步调查的异常行为。仅用一周时间,这项研究最终发现了此前未知的漏洞,并将此事负责任地报告给 React 团队。


一个流程图,标题为“使用 Codex 发现漏洞:CVE-2025-55183”,展示了一个工作流程:从 Git 代码仓库开始,Codex 扫描代码以查找漏洞。零样本尝试失败后,进入专家引导的过程 — 审查代码库、识别潜在目标、构建测试框架,并对示例应用进行模糊测试和重新验证。结果经过确认后生成概念验证,最终实现负责任的漏洞披露,并将补丁应用回代码仓库。

这表明,先进的 AI 系统能够在广泛使用的真实软件中快速推进防御性安全工作。与此同时,这些帮助防御者采取及时行动的功能,也可能被不法分子滥用。


随着智能体系统在网络安全任务上的表现日益强大,我们将负责任的部署视为核心事项。每一次能力突破都伴随更强大的安全防护、更严谨的访问管控,以及与安全社区的持续协作。

可信访问,助力网络防御升级

安全团队在模拟威胁行为者、开展恶意软件分析或进行关键基础设施压力测试时,往往面临诸多限制。我们正在开发一个可信访问试点项目,以帮助符合条件的用户和组织减少使用阻碍,并让值得信赖的防御者能够利用前沿 AI 网络能力,提升网络防御效率。


该试点计划在初期将采取仅限邀请的方式,面向有负责任漏洞披露记录的资深安全专家,以及具备明确网络安全专业应用场景的组织。符合条件的参与者将能够使用我们最强大的模型,用于防御性场景,从而支持合法的双重用途工作。


如果你是一名安全专业人士,或者你所在的组织正在开展合乎道德的安全工作(例如漏洞研究或授权红队测试),我们诚挚邀请你加入计划,并在此处提出你对该计划的意见和期望。

结论

在支持真实世界的软件工程与专业领域(如网络安全)方面,GPT‑5.2-Codex 迈出了重要一步。它可帮助开发者和防御者应对复杂的长期任务挑战,成为负责任安全研究所需的强大工具。


通过逐步推出 GPT‑5.2-Codex,在部署过程中加入安全防护措施,并与安全社区紧密合作,我们致力于在提升防御效果的同时,降低滥用模型的风险。软件与网络安全领域正不断演进,因此本次发布将为我们未来的访问拓展计划积累宝贵经验。



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区