📢 转载信息
原文链接:https://openai.com/index/introducing-gpt-oss-safeguard
原文作者:OpenAI
2025年10月29日
隆重推出 gpt-oss-safeguard
支持自定义安全策略的全新开放安全推理模型(1200 亿和 200 亿参数版本)。
今天,我们发布 gpt-oss-safeguard 的研究预览版,这是我们用于安全分类任务的开放权重推理模型,提供两种版本:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。这些模型是我们 gpt-oss 开放模型的微调版本,采用同样的宽松 Apache 2.0 许可证,允许任何人免费使用、修改和部署。两种模型均可从 Hugging Face(在新窗口中打开)下载。
gpt-oss-safeguard 模型利用推理在推断阶段直接解读开发人员提供的策略,并根据开发人员的需求对用户消息、完成和完整聊天记录进行分类。开发人员始终可以自行决定使用何种策略,因此生成的回复会更贴合、更贴合开发人员的具体应用场景。该模型运用思维链技术,开发人员可通过审阅推理过程了解模型的决策逻辑。此外,策略是在推断过程中提供,而非预先训练到模型中,因此开发人员可轻松迭代修改策略以提升模型性能。这种方法最初是为内部使用而开发,相较于传统通过大量标注样本训练分类器、间接推断决策边界的方式,其灵活性要高得多。
gpt-oss-safeguard 使开发人员能够根据自身应用场景制定最合适的策略。例如,一个视频游戏论坛可能需要制定策略来识别讨论游戏作弊的帖子,或者一个产品评论网站可能需要使用自己的策略来筛选疑似虚假评论。
模型同时接收两个输入:策略和需要根据该策略进行分类的内容,并输出该内容所属类别的结论及其推理过程。开发人员可以自行决定是否以及如何在自己的安全流程中使用这些结论。我们发现,这种基于推理的方法在以下场景中表现尤为出色:
- 潜在危害正在出现或演变,策略需要迅速调整。
- 领域场景高度复杂,小型分类器难以处理。
- 开发人员没有足够样本针对平台上的每种风险训练高质量的分类器。
- 相比延迟,生成高质量、可解释的标签更为重要。
我们发布此 gpt-oss-safeguard 的预览版,旨在收集来自研究和安全社区的反馈,并进一步优化模型性能。历时数月,我们与 ROOST(在新窗口中打开)合作开发了此开放权重版本,以确定开发人员的关键需求、测试模型并编写开发人员文档。作为此次发布的一部分,ROOST 也将在今日成立模型社区(在新窗口中打开),探索用于保护网络空间的开放 AI 模型。与此同时,我们还发布了一份简短技术报告(在新窗口中打开),详细介绍该预览模型的安全性能。
系统级安全:安全分类器的作用
在安全方面,我们秉持深度防御的理念。我们训练模型以确保其安全回应,并实施额外防护层,在政策框架下检测并处理潜在的不安全输入和输出。安全分类器能够区分特定风险区域内的安全内容和不安全内容,长期以来一直是我们的模型以及其他大型语言模型的主要防御层。
传统安全分类器(例如我们通过 Moderation API(在新窗口中打开)提供的分类器)基于预定义安全策略,人工筛选成千上万条安全与不安全内容示例进行开发。分类器通过训练数据学会区分安全与不安全输出。在此传统模式下,分类器实际上从未直接接触到安全策略。相反,它会通过寻找被标记为不安全内容之间的共性特征,以及不安全内容与安全内容之间的差异,来推断用于标注示例的底层策略。
传统分类器具有低延迟、低运营成本的高性能优势。但收集足够的训练样本既耗时又费钱,而且更新或更改策略需要重新训练分类器。
gpt-oss-safeguard 则不同,其推理能力使开发人员能够应用任何策略,包括自主编写的策略或从其他来源获取的策略,而且推理机制能够帮助模型对新制定的策略进行泛化处理。除了安全策略外,gpt-oss-safeguard 还可用于以其他方式标注内容,这些方式对特定产品和平台至关重要。
我们内部如何运用安全推理
我们主要的推理模型现在直接学习安全策略,并运用推理能力判断内容安全性。这种我们称为“审慎对齐”的方法,显著改进了以往安全训练方法,使推理模型在能力提升的同时,在多个方面均比以往非推理模型更加安全。但推理的作用并不仅限于训练模型本身,它还为深度防御创造了新的可能性。基于推理的方法更加灵活,受先前训练细节的限制更少,这些优势有时足以抵消其带来的额外计算成本和延迟。
gpt-oss-safeguard 是我们内部开发的一种方法的开放权重实现,该方法应用于名为 Safety Reasoner 的工具中。我们首先在策略标注任务上进行强化微调,奖励模型模仿人类专家的正确判断。这使模型学会了推断策略如何引导其判断。如今,Safety Reasoner 使我们能够在生产环境中动态更新安全策略,耗时远少于重新训练分类器。这使得 Safety Reasoner 成为迭代部署的关键工具:当我们~将~新模型部署到生产环境时,通常从更严格的策略开始,并在需要时投入相对较多的算力,以便让 Safety Reasoner 能够更谨慎地应用这些策略。然后,随着对生产风险的理解不断加深,我们会调整策略。在我们最近的一些发布中,用于安全推理的算力占比最高已达 16%。
Safety Reasoner 已成为我们安全体系的核心组件。对于图像生成和 Sora 2,它通过动态分步评估实时识别并拦截不安全生成内容。在生物科技与自残防范等领域,我们运行类似 Moderation API 中使用的模型作为小型、快速且高召回率的分类器,以确定哪些内容属于目标领域,然后使用 Safety Reasoner 对这些内容进行审核。Safety Reasoner 会根据详细分类体系对模型输出进行分类,以确定最佳回应方案,构成我们针对 GPT‑5 和 ChatGPT Agent 等系统实施的多层防护机制的重要组成部分。现在,gpt-oss-safeguard 模型让所有人都能使用这种方法。
gpt-oss-safeguard 的性能表现
我们在内部和外部评估集上对 gpt-oss-safeguard 模型进行了评估。
在内部评估中,我们在推断阶段同时向 gpt-oss-safeguard 提供多个策略。针对每个测试输入,我们评估 gpt-oss-safeguard 是否能在所有策略框架下对文本进行正确分类。这是一项具有挑战性的任务:只有当模型在所有包含的策略上与黄金标准标签完全匹配时,才被视为准确。
gpt-oss-safeguard 模型和内部 Safety Reasoner 在多策略准确性方面优于 gpt-5-thinking 和 gpt-oss 开放模型。尤其令人惊讶的是,gpt-oss-safeguard 模型在规模较小的情况下仍能超越 gpt-5-thinking。
我们还在 2022 年研究论文(在新窗口中打开)发布的审核数据集(在新窗口中打开),以及基于用户向开源聊天机器人提问的公开基准测试平台 ToxicChat(在新窗口中打开)上进一步评估这些模型。
在 2022 年的审核评估数据集上,我们使用内部安全策略进行评估(并根据后续变化调整其中一项策略)。gpt-oss-safeguard 的表现略优于所有其他测试模型,包括我们内部的 Safety Reasoner 和 gpt-5-thinking,但 Safety Reasoner 和 gpt-oss-safeguard 之间的差异在统计学上并不显著。
对于 ToxicChat,我们采用基于内部策略改编的简短手写提示进行评估。我们内部的 Safety Reasoner 再次优于 gpt-5-thinking,而 gpt-5-thinking 和 Safety Reasoner 均略优于 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。我们预计,gpt-oss-safeguard 相对较小的规模仍使其成为此类任务的首选方案。
局限性
gpt-oss-safeguard 存在两个具体的局限性。首先,我们观察到,即使只使用数万个高质量标注样本训练的分类器,在内容分类方面的表现仍然优于直接基于策略进行推理的 gpt-oss-safeguard。对于更复杂的风险,花时间训练专用分类器可能更有利于获得更高性能。
其次,gpt-oss-safeguard 可能存在耗时与算力消耗较高的问题,难以全面覆盖平台所有内容。在内部,我们使用 Safety Reasoner 通过以下几种方式处理这个问题:(1)我们使用更小、更快的分类器来确定要评估的内容;(2)在某些情况下,我们采用异步方式调用 Safety Reasoner,在提供低延迟用户体验的同时,仍能确保在检测到不安全内容时及时介入。
未来之路:继续与社区携手共建
gpt-oss-safeguard 是 OpenAI 与社区共同构建的首个开放安全模型集。作为早期测试的一部分,我们与 SafetyKit、ROOST、Tomoro和 Discord 的信任与安全专家合作,对 gpt-oss-safeguard 进行了迭代开发。ROOST 首席技术官 Vinay Rao 表示:“gpt-oss-safeguard 是首个采用‘自带策略和危害定义’设计的开源推理模型。各类组织理应自由研究、修改和使用关键安全技术,并能够推动创新。在我们的测试中,该模型能够熟练理解不同策略,解释其推理过程,并在应用策略时展现出细致入微的理解,我们相信这将对开发人员和安全团队大有裨益。”
我们将继续与社区合作,不断改进开放安全工具,包括通过 ROOST 模型社区 (RMC) 开展合作。RMC 汇聚了安全从业人员和研究人员,共同分享将开源 AI 模型融入安全工作流程的最佳实践,包括评估结果和模型反馈。访问 RMC GitHub 代码库(在新窗口中打开),了解更多关于此项合作以及如何参与的信息。
要开始使用这些模型进行构建,请从 Hugging Face(在新窗口中打开)下载。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区