📢 转载信息
原文链接:https://openai.com/index/strengthening-cyber-resilience
原文作者:OpenAI
2025年12月10日
随着人工智能能力的提升,加强网络弹性
随着我们模型在网络安全方面能力的增强,我们正在投资加强这些模型,增加安全保护层,并与全球安全专家合作。
AI模型中的网络能力正在快速发展,为网络防御带来了有意义的好处,同时也带来了必须谨慎管理的新型双重用途风险。例如,通过夺旗赛(CTF)挑战评估的能力,已从2025年8月GPT‑5的27%提高到2025年11月GPT‑5.1-Codex-Max的76%。
我们预计未来的人工智能模型将继续沿着这一轨迹发展;为此,我们正在进行规划和评估,假设每个新模型都可能达到我们《准备框架》所衡量的“高”水平网络安全能力。这意味着模型能够针对防守严密的人工态系统开发出可工作的零日远程漏洞利用,或有意义地协助进行旨在产生真实世界影响的复杂、隐蔽的企业或工业入侵行动。本文将解释我们如何考虑为达到这些能力水平的模型设置安全防护,并确保它们能为防御者提供有意义的帮助,同时限制被滥用。
随着这些能力的进步,OpenAI正在投资加强我们的模型在防御性网络安全任务方面的能力,并创建工具,使防御者能够更轻松地执行如代码审计和漏洞修补等工作流程。我们的目标是让我们的模型和产品为防御者带来显著的优势,因为他们往往人手不足、资源有限。
与其它双重用途领域一样,防御性和攻击性的网络工作流程通常依赖于相同的底层知识和技术。我们正在投资安全防护措施,以帮助确保这些强大的能力主要造福于防御用途,并限制其对恶意目的的增益。网络安全几乎触及所有领域,这意味着我们不能仅依赖任何单一类别的安全防护措施——例如限制知识或仅使用经过验证的访问——而是需要一种纵深防御(defense-in-depth)方法,平衡风险并赋能用户。在实践中,这意味着要塑造能力的使用方式、指导和应用方式,以便先进的模型能够加强安全,而不是降低滥用的门槛。
我们将这项工作视为一项持续的、长期的投资,旨在赋予防御者优势,并不断加强整个生态系统中关键基础设施的安全态势。
减轻恶意用途
我们的模型在设计和训练时都考虑了安全性,并有主动系统支持,可以检测和响应网络滥用行为。随着我们的能力和威胁形势的变化,我们会不断完善这些保护措施。虽然没有任何系统可以在不严重影响防御用途的情况下保证完全防止网络安全领域的滥用,但我们的策略是通过一个分层安全栈来减轻风险。
在此基础上,我们采取纵深防御的方法,依靠访问控制、基础设施加固、出口控制和监控的组合。我们将这些措施与检测和响应系统,以及专门的威胁情报和内部风险计划相结合,以确保新兴威胁能够被快速识别和阻止。这些安全防护措施旨在随着威胁环境的发展而演变。我们预设变化,并以能够快速、适当地进行调整的方式进行构建。
在此基础上进行构建:
- 训练模型拒绝或安全地响应有害请求,同时对教育和防御用例保持帮助性:我们正在训练我们的前沿模型拒绝或安全地响应那些可能导致明显网络滥用的请求,同时对合法的防御和教育用例保持最大的帮助性。
- 检测系统:我们持续完善和维护跨产品(使用前沿模型)的系统级监控,以检测潜在的恶意网络活动。当活动显示不安全时,我们可能会阻止输出,将提示路由到更安全或能力较低的模型,或上报以进行执行。我们的执行结合了自动化和人工审查,并根据法律要求、严重性和重复行为等因素确定。我们还与开发人员和企业客户密切合作,以对齐安全标准,并通过明确的升级路径实现负责任的使用。
- 端到端红队测试:我们正与专业的红队测试组织合作,评估和改进我们的安全缓解措施。他们的工作是通过端到端的方式绕过我们所有的防御,就像一个坚决且资源充足的对手可能做的那样。这有助于我们及早发现漏洞并加强整个系统。
加强网络弹性的生态系统举措
OpenAI很早就开始投资将人工智能应用于防御性网络安全用例,我们的团队与全球专家密切协调,以成熟我们的模型及其应用。我们重视为维护数字世界安全而努力的全球网络安全从业者社区,并致力于提供强大的工具来支持防御安全。随着我们推出新的安全措施,我们将继续与网络安全界合作,了解人工智能可以在哪些方面有意义地加强弹性,以及在哪些方面深思熟虑的安全措施最为重要。
与这些合作并行,我们正在建立一系列旨在帮助防御者加速行动、将我们的安全措施建立在现实需求基础上,并加速大规模负责任的补救措施的努力。
网络防御的可信访问计划
我们很快将推出一个可信访问计划,探索为从事网络防御的合格用户和客户在最新模型中为防御用例提供分级访问增强功能。我们仍在探索可以广泛访问哪些功能,以及哪些功能需要分级限制,这可能会影响该计划未来的设计。我们的目标是使这个可信访问计划成为构建弹性生态系统的基石。
利用Aardvark扩大防御能力
Aardvark,我们自主式的安全研究员,旨在帮助开发人员和安全团队大规模查找和修复漏洞,现已进入私有测试阶段。它可以扫描代码库中的漏洞并提出维护者可以快速采用的补丁。它已经通过对整个代码库进行推理,在开源软件中发现了新型CVE。我们计划为选定的非商业开源存储库提供免费覆盖,以帮助保障开源软件生态系统和供应链的安全。请在此处申请参与。
前沿风险委员会
我们将成立前沿风险委员会,这是一个咨询小组,将经验丰富的网络防御者和安全从业者与我们的团队紧密合作。该委员会最初将专注于网络安全,未来将扩展到其他前沿能力领域。成员将就有用、负责任的能力与潜在滥用之间的界限提供建议,这些经验教训将直接为我们的评估和安全防护措施提供信息。我们稍后将公布该委员会的更多信息。
与行业共同发展威胁模型共享认知
最后,我们预计行业中的任何前沿模型都可能被用于网络滥用。为解决这一问题,我们通过前沿模型论坛(一个由领先的AI实验室和行业合作伙伴支持的非营利组织)与其他前沿实验室合作,共同发展对威胁模型和最佳实践的共享认知。在此背景下,威胁建模通过识别AI能力如何被武器化、不同威胁行为者的关键瓶颈,以及前沿模型可能提供哪些有意义的提升来帮助减轻风险。此项合作旨在建立一个一致的、覆盖整个生态系统的对威胁行为者和攻击路径的理解,使实验室、维护者和防御者能够更好地改进其缓解措施,并确保关键安全见解能够快速传播到整个生态系统。我们还正与外部团队合作开发网络安全评估。我们希望一个独立的评估生态系统将进一步帮助建立对模型能力的共享认知。
总而言之,这些努力体现了我们长期致力于加强生态系统防御面的承诺。随着模型能力越来越强,我们的目标是帮助确保这些能力能转化为防御者的实际杠杆——以现实需求为基础,以专家意见为指导,并谨慎部署。在开展这项工作的同时,我们计划探索其他举措和网络安全赠款,以帮助发掘可能不会从传统渠道中涌现出的突破性想法,并从学术界、工业界和开源社区汇集大胆、富有创意的防御方案。总而言之,这是一项持续进行的工作,我们预计将不断发展这些计划,因为我们了解什么能最有效地推进现实世界安全。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区