📢 转载信息
原文链接:https://openai.com/index/strengthening-safety-with-external-testing
原文作者:OpenAI
2025年11月19日
安全通过外部测试加强我们的安全生态系统
我们对前沿 AI 进行第三方评估的方法。
在 OpenAI,我们相信独立、受信任的第三方评估在前沿 AI 安全生态系统的加强中起着关键作用。第三方评估是对前沿模型进行的评估,旨在确认或提供关于关键安全能力和缓解措施声明的额外证据。这些评估有助于验证安全主张、防范盲点,并提高围绕能力和风险的透明度。通过邀请外部专家测试我们的前沿模型,我们也旨在增强人们对我们能力评估和安全措施深度的信任,并帮助提升更广泛的安全生态系统。
自 GPT‑4 发布以来,OpenAI 已经与一系列外部合作伙伴合作,对我们的模型进行测试和评估。总的来说,我们的第三方合作主要采取三种形式:
- 独立评估:针对关键的前沿能力和风险领域,例如生物安全、网络安全、AI 自我改进和scheming(阴谋诡计)的评估。
- 方法论审查:评估我们如何评估和解释风险。
- 主题专家 (SME) 探查:专家直接对模型在真实 SME 任务上进行评估,并为我们评估其能力及相关安全措施提供结构化输入1。
这篇博文概述了我们如何使用每种形式的外部评估、它们的重要性、它们如何影响部署决策,以及我们用来构建这些合作的原则。本着透明的精神,我们还将分享更多关于管理我们与第三方测试人员合作的保密和出版条款。
为什么这很重要?
第三方评估师在我们的内部工作之外增加了一个独立的评估层次,加强了严谨性,并提供了额外的保护以防止自我确认。他们的输入与我们自己的评估一起提供了额外证据,有助于为强大系统的负责任部署提供信息支持。
我们还将第三方评估视为构建有韧性的安全生态系统的一部分。我们的团队在能力和风险领域进行广泛的内部测试,但独立组织带来了额外的视角和方法论。我们致力于支持一个多元化的合格评估组织群体,他们可以定期与我们一起评估前沿模型。
最后,我们的目标是透明地说明这些输入如何帮助塑造我们的安全流程。我们定期公布第三方评估结果——例如,通过在系统卡中包含部署前评估的摘要,并支持评估组织在保密和准确性审查后发布更详细的工作。这种透明度通过展示外部输入如何影响我们的能力评估和安全措施来建立信任。
建立在受信任的访问、透明度和知识共享之上的持续关系,有助于整个生态系统跟上新兴风险,并培养出适应性强、可操作的评估,这对于前沿 AI 系统的更强标准和更明智的治理至关重要。
外部实验室的独立评估
从GPT‑4发布开始,我们就支持在部署前对早期模型检查点进行独立评估。从那时起,我们扩大了与一系列在关键前沿能力和风险领域的评估方面拥有深厚专业知识的第三方组织的合作。我们将独立实验室的工作范围限定为开放式测试,即外部团队应用自己的方法来对特定前沿能力提出声明或评估。
例如,对于GPT‑5,OpenAI 协调了一系列广泛的外部能力评估,涵盖关键风险领域,如长期自主性、scheming(阴谋诡计)、欺骗和监督规避、湿式实验室规划可行性以及攻击性网络安全评估。
这些独立评估补充了根据 OpenAI 准备框架进行的评估,并包括诸如 METR 的时间范围评估或 SecureBio 的病毒学能力故障排除 (VCT)评估等基准测试。
为了支持这些评估,我们提供了对早期模型检查点的安全访问权限、精选的评估结果以具体化我们正在看到的能力提升、在需要时提供零数据保留,以及提供更少安全缓解措施的模型。例如,在网络安全和生物安全领域进行测试的组织测试了带有和不带安全缓解措施的模型,以探查底层能力。其他一些组织获得了直接的思维链访问权限,使他们能够检查模型的推理轨迹。这一增加的透明度步骤使评估人员能够识别沙袋行为2或scheming行为,这些行为可能只有通过阅读思维链才能察觉。访问是在有安全控制措施到位的情况下提供的,随着模型能力和测试需求的演变,我们不断更新这些控制措施。
方法论审查
在某些情况下,外部评估师非常适合提供方法论审查,为前沿实验室依赖以评估风险的框架和证据提供额外的视角。例如,在发布gpt-oss时,我们使用对抗性微调来估计开源权重模型的最坏情况能力,如《估计开源权重 LLM 的最坏情况前沿风险》中所述。核心安全问题是,恶意行为者是否可以在我们的准备框架下将模型微调到生物或网络等领域的高能力水平。
由于这需要资源密集型的对抗性微调,我们邀请第三方评估师审查并对我们的内部方法和结果提出建议,而不是重复类似的工作。这涉及一个为期数周的过程,共享评估部署、对抗性微调方法的详细信息,并收集关于改进最坏情况前沿风险方法论和评估的结构化建议。评估师的反馈促使最终的对抗性微调过程发生了变化,并证明了方法论确认的价值。我们将我们采用的项目记录在 gpt-oss 的论文和系统卡中,并对未采用的项目提供了理由。
在这里,方法论审查比独立评估更合适:评估涉及运行大规模的、最坏情况的实验,这需要大型 AI 实验室之外不常见的基础设施和技术专业知识。这意味着独立评估可能无法直接带来对最坏情况的见解,而将外部评估师集中在确认主张上更为有效。外部评估师审查了方法和证据,突出显示了在建议反馈循环中得到解决的、与决策相关的差距。我们希望将这种方法扩展到其他领域,在这些领域中,基础设施或访问需求使得第三方无法直接运行评估,或者外部评估尚不存在。
主题专家 (SME) 探查
我们与外部专家互动的另一种方式是通过主题专家 (SME) 探查,其中专家直接评估模型并通过调查向我们评估其能力提供结构化输入。这与旨在对特定安全措施进行压力测试的红队测试不同。这使我们能够用反映专家判断和真实世界背景的领域特定见解来补充准备框架评估,而静态评估本身可能无法捕捉到这些见解。例如,我们邀请了一个主题专家小组使用仅有帮助的模型3来为 ChatGPT Agent 和 GPT‑5 尝试他们自己的端到端生物场景。他们根据模型在他们场景中提供的指导的有用性,对模型能将像他们一样的专家提升到比经验较少的初学者高出多少水平进行了评分。目标是收集关于系统在现实工作流程中能将积极主动的初学者在多大程度上更接近熟练执行的额外输入:SME 对我们关于“初学者提升”的主张进行了压力测试,并就模型提供了哪些具体的、分步骤的帮助,而不是不太有帮助的总结,提供了细致的反馈。这次专家探查练习被纳入了部署这些模型的总体评估的一部分,并在两个发布版本的系统卡中进行了分享。
什么使第三方评估合作取得成功?
本着透明的精神,我们分享更多关于第三方评估师与我们合作时同意的内容,以及指导我们合作的原则:
- 在谨慎的保密界限内保持透明:第三方评估师签署保密协议 (NDA),以便共享机密、非公开信息以支持他们的评估。在本博文的附录中,我们包含了与第三方评估师合同的相关摘录,其中概述了出版权和审查期望。我们秉持透明的原则,力求在不泄露机密信息或知识产权的情况下,通过出版来推动对安全和相关评估的理解。作为此过程的一部分,我们会审查和批准第三方评估的出版物,以确保保密性和事实准确性。在过去几年中,一些第三方评估师在系统卡中与我们自己的评估摘要出版物一起发表了他们的工作。一些在经我们审查保密性和准确性后得以发表的工作示例包括:[METR GPT‑5 报告、Apollo Research 关于 OpenAI o1 的报告、Irregular GPT‑5 评估]
- 周到的信息披露和安全、敏感的访问:默认情况下,我们提供旨在公开或可投入生产的模型信息和访问权限。当评估需要时,我们提供更深层次的访问,例如对仅有帮助的模型或非公开信息。在第三方评估师需要解决关键安全问题时,OpenAI 在必要时提供了这些形式的访问。重要的是,这些类型的敏感访问需要严格的安全措施,随着模型能力和测试需求的演变,我们不断更新这些控制措施。
- 平衡的经济激励:我们认为确保第三方评估生态系统资金充足且可持续非常重要。因此,我们向所有第三方评估师提供报酬,一些评估师根据其组织理念选择拒绝。报酬形式包括直接支付工作费用和/或通过 API 积分等方式补贴模型使用成本。任何付款都不会以第三方评估的结果为条件。
这些因素相结合,有助于第三方评估在保护敏感信息和促进 AI 安全透明度方面发挥作用,并为第三方评估师提供报酬以补偿他们的时间。
展望未来
展望未来,我们认为需要继续加强有能力对前沿 AI 系统进行可信、与决策相关的评估的组织生态系统。有效的第三方评估需要专业知识、稳定的资金和方法论的严谨性。持续投资于合格的评估组织、测量科学的进步以及敏感访问的安全保障,对于确保评估能够跟上模型能力的进步至关重要。
第三方评估是我们将外部视角带入安全工作的一种方式,它们与其他机制并行运作。我们还通过结构化的红队测试、集体对齐项目、与美国 CAISI 和英国 AISI的合作,以及像我们的全球医师网络和专家委员会(关于福祉与 AI)这样的咨询小组,与外部专家合作,以帮助指导我们在心理健康和用户福祉方面的工作。这些努力贡献了不同形式的专业知识,并支持了一个更广泛、更可靠的基础,用于评估和治理先进的 AI 系统。
附录
以下是我们与合作进行部署前评估的第三方协议中的说明性摘录。
未经授予任何权利或许可,披露方同意前述规定不适用于 (a) 在披露后 2 年内成为公共领域信息的任何信息,除非是构成商业秘密的信息,此类信息应在仍为商业秘密的期间内受本协议的保密义务约束,(b) 包含在研究人员的非商业研究或学术出版物中的任何信息,前提是此类信息 (i) 在出版前获得 OpenAI 事先书面批准,或 (ii) 是从 OpenAI 已向公众发布的 OpenAI 技术版本中产生的(为免生疑问,不包括任何来自 OpenAI 技术版本但未向公众发布的任何信息、结果或输出);或 (c) 接收方可以记录的任何信息 (i) 并非因接收方或其任何附属机构、代理、顾问或雇员的任何不当行为或不作为而成为或进入公共领域,(ii) 在从披露方接收之前已在其拥有或知晓,无任何限制,(iii) 由第三方合法披露给它且无任何限制,或 (iv) 接收方的高级职员、董事、雇员、顾问、代表、顾问或附属机构在未接触任何此类专有信息的情况下独立开发的。如果法律或法院命令要求披露,接收方应尽合理的努力限制披露并获得保密待遇或保护令,并允许披露方参与该程序。
作者
OpenAI脚注
- 1
这与红队测试不同,红队测试旨在对安全措施进行细致的压力测试并提供评估开发数据。
- 2
当模型检测到自己正在被评估或测试时,故意表现不佳或隐藏其真实能力。
- 3
仅有帮助的模型会回答任何请求,即使该请求有害。这些是通过旨在实现这种行为的后训练方法创建的。
继续阅读
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区