目 录CONTENT

文章目录

随着人工智能能力的提升,加强网络弹性

Administrator
2025-12-11 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/strengthening-cyber-resilience

原文作者:OpenAI


2025年12月10日

随着人工智能能力的提升,加强网络弹性

随着我们模型网络安全能力的增强,我们正在投资于加强这些能力、增加安全防护层,并与全球安全专家合作。

AI模型中的网络能力正在快速发展,为网络防御带来了有意义的好处,同时也带来了必须谨慎管理的新的双重用途风险。例如,通过“夺旗”(CTF)挑战评估的能力已从2025年8月GPT‑5上的27%提升到2025年11月GPT‑5.1-Codex-Max上的76%。

我们预计,未来的AI模型将继续沿着这一轨迹发展;为此,我们正做计划和评估,假设每个新模型都可能达到我们《准备就绪框架》所衡量的“高”级别网络安全能力。这意味着模型能够对防范严密的系统开发出可工作的零日远程漏洞利用,或对旨在产生真实世界影响的复杂、隐蔽的企业或工业入侵操作提供有意义的协助。本文将解释我们如何思考针对达到这些能力水平的模型的安全防护措施,确保它们能为防御者提供有意义的帮助,同时限制滥用。

随着这些能力的进步,OpenAI正在投资于加强我们模型在防御性网络安全任务方面的能力,并创建工具,使防御者能够更轻松地执行代码审计和漏洞修复等工作流程。我们的目标是让我们的模型和产品为防御者带来显著优势,因为防御者往往人手不足、资源有限。

与所有双重用途领域一样,防御性和攻击性网络工作流程通常依赖于相同的底层知识和技术。我们正在投资于安全措施,以帮助确保这些强大的能力主要有利于防御用途,并限制其对恶意目的的助益。网络安全几乎涉及每个领域,这意味着我们不能仅依赖任何单一类别的安全措施——例如限制知识或仅使用经过审查的访问——而是需要一种纵深防御的方法,平衡风险并赋权用户。在实践中,这意味着要塑造能力如何被获取、引导和应用,以使先进模型能加强安全性,而不是降低滥用的门槛。

我们将这项工作视为一项持续的、长期的投资,旨在为防御者提供优势,并不断加强整个生态系统中关键基础设施的安全态势。

缓解恶意使用

我们的模型在设计和训练时就旨在安全运行,并辅以主动系统来检测和响应网络滥用行为。随着我们能力和威胁形势的变化,我们会不断完善这些保护措施。虽然任何系统都无法在不严重影响防御性用途的情况下完全防止网络安全领域的滥用,但我们的策略是通过一个分层安全栈来减轻风险。

在此基础之上,我们采取了纵深防御的方法,依赖于访问控制、基础设施加固、出口控制和监控的组合。我们将这些措施与检测和响应系统,以及专门的威胁情报和内部风险计划相结合,确保新兴威胁能够被快速识别和阻止。这些安全措施旨在随着威胁形势的发展而演变。我们假设会发生变化,并以此构建系统,以便能够快速、适当地进行调整。

在此基础上,我们采取了以下措施:

  • 训练模型拒绝或安全地响应有害请求,同时对教育和防御用例保持帮助性: 我们正在训练我们的前沿模型拒绝或安全地响应那些可能导致明显网络滥用的请求,同时对合法的防御和教育用例保持最大的帮助性。
  • 检测系统: 我们完善并维护跨使用前沿模型的产品的系统级监控,以检测潜在的恶意网络活动。当活动看起来不安全时,我们可能会阻止输出,将提示路由到更安全或能力较低的模型,或上报以进行执行。我们的执行结合了自动化和人工审查,并根据法律要求、严重性和重复行为等因素来确定。我们还与开发人员和企业客户密切合作,以对齐安全标准,并通过明确的升级路径实现负责任的使用。
  • 端到端的红队演练: 我们正与顶级的红队组织合作,以评估和改进我们的安全缓解措施。他们的工作是试图绕过我们所有的防御措施,进行端到端测试,就像一个坚决且资源充足的对手可能做的那样。这有助于我们及早发现差距并加强整个系统。

加强网络弹性的生态系统举措

OpenAI很早就投资于将AI应用于防御性网络安全用例,我们的团队与全球专家密切协调,以成熟我们模型的应用及其本身。我们重视为让我们的数字世界更安全而辛勤工作的全球网络安全从业者社区,并致力于提供支持防御性安全的强大工具。在我们推出新的安全措施时,我们将继续与网络安全界合作,了解AI可以在何处有意义地加强弹性,以及深思熟虑的安全措施在何处最为重要。

除了这些合作之外,我们正在建立一系列旨在帮助防御者加速、将我们的安全措施建立在现实需求的基础上,并加速负责任地大规模修复的努力。

面向网络防御的可信访问计划

我们很快将推出一项可信访问计划,在该计划中,我们将探索为从事网络防御的合格用户和客户提供对其最新模型增强功能的分级访问,用于防御性用例。我们仍在探索可以广泛提供哪些功能以及哪些功能需要分级限制的正确边界,这可能会影响该计划的未来设计。我们的目标是让这项可信访问计划成为构建弹性生态系统的基石。

通过Aardvark扩大防御能力

Aardvark是我们代理式安全研究员,旨在帮助开发人员和安全团队大规模查找和修复漏洞,现已进入私有测试版。它会扫描代码库中的漏洞并提出补丁,供维护者快速采用。它已经通过对整个代码库进行推理,在开源软件中发现了新型 CVEs。我们计划为选定的非商业开源代码库提供免费覆盖,以促进开源软件生态系统和供应链的安全。请在此申请参与。

前沿风险委员会

我们将成立前沿风险委员会,这是一个咨询小组,将经验丰富的网络防御者和安全从业人员与我们的团队紧密合作。该委员会最初将专注于网络安全,未来将扩展到其他前沿能力领域。成员将就有用、负责任的能力潜在滥用之间的界限提供建议,这些经验教训将直接指导我们的评估和安全措施。我们很快将公布有关该委员会的更多信息。

与行业共同发展对威胁模型的共同理解

最后,我们预计行业中的任何前沿模型都可能产生网络滥用。为解决这个问题,我们通过前沿模型论坛(一个由领先的AI实验室和行业合作伙伴支持的非营利组织)与其他前沿实验室合作,共同发展对威胁模型和最佳实践的理解。在此背景下,威胁建模通过识别AI能力如何被武器化、不同威胁行为者的关键瓶颈,以及前沿模型可能提供多少有意义的助推作用,来帮助减轻风险。这项合作旨在建立一个一致的、全生态系统的对威胁行为者和攻击路径的理解,使实验室、维护者和防御者能够更好地改进其缓解措施,并确保关键的安全见解能迅速传播到整个生态系统。我们还与外部团队合作开发网络安全评估。我们希望一个独立的评估生态系统能进一步帮助建立对模型能力的共同理解。

总而言之,这些努力反映了我们长期致力于加强生态系统的防御侧。随着模型变得越来越强大,我们的目标是帮助确保这些能力转化为防御者的实际优势——以现实需求为基础,由专家意见塑造,并谨慎部署。与这项工作并行,我们计划探索其他举措和网络安全赠款,以帮助挖掘可能无法通过传统渠道出现的突破性想法,并从学术界、工业界和开源社区众包大胆、富有创意的防御措施。总而言之,这是一项持续的工作,我们预计将不断发展这些计划,因为我们会了解什么能最有效地推动现实世界的安全进步。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区