目 录CONTENT

文章目录

GPT-5.2-Codex 正式发布:赋能智能体编码与网络安全防御

Administrator
2025-12-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/gpt-5-2-codex

原文作者:OpenAI


2025年12月18日

今天,我们正式发布 GPT‑5.2-Codex,这是迄今最前沿的智能体编码模型,赋能复杂的软件工程实践。GPT‑5.2-Codex 基于 GPT‑5.2,并针对智能体编码进行了深度优化,具体改进包括:通过上下文压缩 (compaction) 提升长程任务执行能力、在大规模代码变更(如重构与迁移)中具备更出色的性能、在 Windows 环境下实现更优表现,以及在网络安全防御方面显著增强。



随着我们的模型不断在智能前沿取得进展,我们观察到这些提升也转化为在专业领域的能力跃升,例如网络安全。就在上周,一位安全研究人员使用 GPT‑5.1-Codex-Max 搭配 Codex CLI,发现 React 中的三个漏洞,并负责任地进行披露(在新窗口中打开),这些漏洞可能导致拒绝服务或源代码泄露。



GPT‑5.2-Codex 拥有迄今为止最强大的网络安全能力。这些进步能够在大规模环境中提升网络安全,但同时也带来了新的双重用途风险,需要谨慎部署。尽管根据我们的“准备框架”,GPT‑5.2-Codex 尚未达到“高”水平的网络安全能力,但我们正在以未来能力增长为导向来设计部署方案。



为了兼顾两者,我们首先在 Codex CLI、IDE 扩展、云端以及代码审查中发布 GPT‑5.2-Codex,从今天起向所有付费 ChatGPT 用户开放。同时,我们也在努力推进 API 的安全开放,以便未来第三方能够使用。此外,我们正在开发用于网络防御的可信访问机制。这是一项仅限邀请的试点计划,向经过审查的安全专业人士和组织提供用途限定的受控访问权限,使他们能够在保持强有力防护的前提下,开展已授权的防御性安全工作。

开拓软件工程新境界

GPT‑5.2-Codex 不仅继承了 GPT‑5.2 在专业领域的优势,还融合了 GPT‑5.1-Codex-Max 的前沿智能体编码与终端操作能力。凭借更出色的长上下文理解、可靠的工具调用、更高的事实准确性,以及原生的上下文压缩,GPT‑5.2-Codex 成为处理长期编码任务更值得信赖的伙伴,同时在推理过程中保持高效的 Token 使用。



GPT‑5.2-Codex 能够更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。在原生 Windows 环境中,其智能体编码表现也更加高效和可靠,进一步延展了 GPT‑5.1-Codex-Max 的前沿能力。



GPT‑5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基准测试中取得了优异成绩。这些基准测试旨在评估智能体在真实终端环境中执行各种任务的表现。



凭借这些改进,GPT‑5.2-Codex 提升了在实际软件工程任务中的表现,涵盖了代码库导航、重构、Pull Request 的创建与审查等方面。

SWE-Bench Pro⁠⁠⁠⁠ 测试为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。该基准测试旨在解决 SWE-Bench Verified 中存在的诸多问题,例如数据污染、多样性不足以及评分不够可靠。

Terminal-Bench 2.0 基准测试旨在评估 AI 智能体在实际终端环境中的能力,涵盖的任务包括编译代码、训练模型和配置服务器。

<PLACEHOLDER FOR FRONTEND HTML ASSETS>

现实世界的网络安全能力

现代社会依赖软件运行,而其可靠性取决于强大的网络安全保障:确保银行、医疗、通信和关键公共服务等重要系统保持在线,保护敏感数据,并让人们能够信任他们每天所依赖的软件。漏洞可能在无人察觉之前就已存在,而发现、验证和修复这些漏洞,往往依赖于一群配备合适工具的工程师和独立安全研究人员。



2025 年 12 月 11 日,React 团队披露了三个安全漏洞,它们影响那些使用 React Server Components 构建的应用。这次披露的特别之处不仅在于漏洞本身,更在于其发现过程。



Andrew MacPherson 是 Privy(Stripe 旗下公司)的安全研究员,他使用 GPT‑5.1-Codex-Max 搭配 Codex CLI 及其他编码代理,复现并研究一周前披露的另一个严重 React 漏洞 — React2Shell。他的目标是评估该模型在现实漏洞研究中的辅助能力。



为此,他引导 Codex 完成标准的防御性安全工作流程,包括搭建本地测试环境、就潜在攻击面展开推理,并借助模糊测试,以非正常格式的输入对系统进行探测。在尝试复现最初的 React2Shell 漏洞时,Codex 暴露出一些值得进一步调查的异常行为。仅用一周时间,这项研究最终发现了三个此前未知的漏洞,并将此事负责任地报告给 React 团队。



MacPherson 还分享了促成该发现的 Codex 会话,在具体记录中展示了智能体 AI 系统如何帮助安全研究人员在广泛使用的生产级软件中,更快速地从假设阶段走向已验证的漏洞。



以下是对话中的重要片段:

[ADD/LINK TO ROLLOUT THAT DISCOVERED VULNERABILITY]

这表明,先进的 AI 系统能够在广泛使用的真实软件中快速推进防御性安全工作。与此同时,这些帮助防御者采取及时行动的功能,也可能存在滥用的风险。



随着智能体系统在网络安全任务上的表现日益强大,我们将负责任的部署视为核心事项。每一次能力突破都伴随更强大的安全防护、更严谨的访问管控,以及与安全社区的持续协作。

推动网络安全发展

我们的一项网络安全评估显示,模型能力在持续提升:从 GPT‑5-Codex 的显著跃升,到 GPT‑5.1-Codex-Max 的大幅进步,再到 GPT‑5.2-Codex 的进一步突破。我们预计,未来的 AI 模型将继续沿着这一发展轨迹前进。为此,在进行规划与评估时,我们所持的标准是:假设每个新模型都可能达到准备框架⁠⁠(在新窗口中打开)中“高”水平的网络安全能力。虽然 GPT‑5.2-Codex 尚未达到这一水平,但我们已为未来跨越这一门槛的模型做好充分准备。

专业夺旗赛 (CTF) 评测用于衡量模型在 Linux 环境中解决高级、多步骤的真实挑战的能力,模型需要具备专业级的网络安全技能。

因此,伴随此次发布,我们正在全面升级网络安全防护,并引入可信访问机制来支持防御工作。我们将与安全社区携手合作,持续完善防护措施,并以受控方式开放对最强大模型的使用。

可信访问,助力网络防御升级

安全团队在模拟威胁行为者、开展恶意软件分析或进行关键基础设施压力测试时,往往面临诸多限制。可信访问计划为符合条件的用户和机构提供支持,帮助他们利用先进的 AI 网络安全能力,更高效地开展防御工作。



最初,该计划将仅通过邀请的方式开放给经过审查的安全专业人士,他们具备负责任漏洞披露的良好记录。此外也开放给拥有明确网络安全专业应用场景的组织。

结论

在支持真实世界的软件工程与网络安全方面,GPT‑5.2-Codex 迈出了重要一步。它可帮助开发者和防御者应对复杂、长期的挑战,成为负责任安全研究所需的强大工具。



我们采取逐步推出的方式,并在开放访问时配套安全措施,同时通过可信访问与安全社区保持紧密协作,力求在提升防御成效的同时降低滥用风险。软件与网络安全领域正不断演进,因此本次发布将为我们未来的访问拓展计划积累宝贵经验。



如果你是一名安全专业人士,或者你所在的组织正在开展合乎道德的安全工作(例如漏洞研究或授权红队测试),我们诚挚邀请你加入可信访问计划,并提出你对该计划的意见和期望。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区