发布 gpt-oss-safeguard：支持自定义安全策略的开源安全推理模型（120B和20B）-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/introducing-gpt-oss-safeguard

原文作者：OpenAI

今天，我们发布了 gpt-oss-safeguard 的研究预览版，这是一种用于安全分类任务的开放权重推理模型，提供 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两种尺寸。这些模型是我们 gpt-oss 开放模型系列的微调版本，并根据相同的宽松 Apache 2.0 许可证发布，允许任何人自由使用、修改和部署它们。两种模型今天都可以从 Hugging Face（在新窗口中打开）下载。

gpt-oss-safeguard 模型在推理时使用推理能力直接解释开发者提供的策略，根据开发者的需求对用户消息、完成内容和完整聊天进行分类。开发者始终决定使用何种策略，因此响应更具相关性，并能根据开发者的用例进行定制。该模型使用思维链（chain-of-thought），开发者可以审查该链条以理解模型是如何得出决策的。此外，策略是在推理过程中提供的，而不是训练到模型中，因此开发者可以轻松地迭代修改策略以提高性能。这种我们最初用于内部的方法，比传统方法（通过大量带标签示例间接推断决策边界来训练分类器）要灵活得多。

gpt-oss-safeguard 使得开发者能够划定最适合其用例的策略界限。例如，一个视频游戏讨论论坛可能希望制定一项策略来分类讨论游戏中作弊的帖子，或者一个产品评论网站可能希望使用自己的策略来筛选那些看起来像是虚假评论的评论。

该模型一次接收两个输入——一个策略和要在该策略下进行分类的内容——并输出一个关于内容归属的结论，以及其推理过程。开发者决定如何在自己的安全流程中，或者是否使用这些结论。我们发现，这种基于推理的方法在以下情况下尤其有效：

潜在危害正在出现或演变，需要快速调整策略。
领域高度细微，较小的分类器难以处理。
开发者没有足够的样本来为其平台上的每种风险训练高质量的分类器。
延迟不如产生高质量、可解释的标签重要。

我们发布 gpt-oss-safeguard 的预览版是为了接收来自研究和安全社区的反馈，并进一步迭代模型性能。在过去的几个月里，我们与 ROOST（在新窗口中打开）合作完成了这项开放权重发布工作，以确定开发者的关键需求、测试模型并提供开发者文档。作为此次发布的一部分，ROOST 将建立一个模型社区（技术报告链接），该社区也于今日启动，旨在探索使用开放的 AI 模型来保护在线空间。与此发布相伴，我们还发布了一份简短的技术报告，详细介绍了此预览模型的安全性能。

系统级安全：安全分类器的作用

在安全方面，我们信奉纵深防御（defense in depth）。我们训练模型以安全的方式响应，并实施额外的保护层，以根据我们的策略检测和处理潜在不安全的人工输入和输出。安全分类器（区分特定风险领域中安全与不安全内容的模型）长期以来一直是保护我们自己以及其他大型语言模型的主要防线。

传统的安全分类器，例如我们 Moderation API（在新窗口中打开）中提供的那些，是通过在预定义的安全性策略下，手动策划数千个安全和不安全内容的示例来开发的。从这些训练数据中，分类器学习区分安全和不安全的输出。在传统方法中，分类器实际上从未见过安全策略本身。相反，它试图通过查找被标记为不安全的内容中的相似之处以及不安全内容与安全内容之间的差异，来推断用于标记示例的潜在策略。

传统分类器可以具有高性能，具有低延迟和低运营成本。但是，收集足够数量的训练示例既耗时又昂贵，并且更新或更改策略需要重新训练分类器。

gpt-oss-safeguard 的不同之处在于其推理能力允许开发者应用任何策略，包括他们自己编写的或从其他来源获取的策略，并且推理能力有助于模型泛化到新编写的策略。除了安全策略之外，gpt-oss-safeguard 还可以用于以对特定产品和平台重要的其他方式标记内容。

Flow diagram titled ‘Policy-based reasoning with gpt-oss-safeguard.’ Developer-provided policies and user-provided content feed into GPT-OSS-Safeguard. The model produces a chain-of-thought and then a policy decision, with a loop labeled ‘policy iteration’ feeding back to refine policies. A legend indicates developer input, user input, and model output.

我们在内部如何使用安全推理

我们的主要推理模型现在直接学习我们的安全策略，并利用其推理能力来推断什么是安全的。这种方法，我们称之为审慎对齐（deliberative alignment），在早期的安全训练方法上有了显著改进，并在多个方面使我们的推理模型比其非推理的前身更安全，即使其能力有所提高。但推理不仅对训练模型本身有用。它还为纵深防御创造了新的可能性。基于推理的方法更灵活，受其先前训练细节的限制更少，这些优势有时足以证明其额外的计算成本和延迟是合理的。

gpt-oss-safeguard 是我们内部开发的、在一个名为安全推理器（Safety Reasoner）的工具中的方法的开放权重实现。我们从针对策略标记任务的强化微调开始，奖励模型模仿人类专家的正确判断。这教会了模型推理策略如何导致其判断。如今，安全推理器使我们能够在生产环境中动态更新安全策略，所需时间少于重新训练分类器所需的时间。这使得安全推理器成为迭代部署的关键工具：当我们向生产环境部署新模型时，我们通常会从更严格的策略开始，并在需要时使用相对大量的计算资源，以使安全推理器能够仔细应用这些策略。然后，随着我们对生产中风险的理解加深，我们会调整策略。在我们最近的一些发布中，专门用于安全推理的总计算量的比例最高达到了 16%。

安全推理器已成为我们安全堆栈的核心组成部分。对于图像生成和 Sora 2，它对输出进行动态、分步评估，以实时识别和阻止不安全的生成内容。在生物学和自残等领域，我们会像使用 Moderation API 的模型一样，使用小而快、高召回率的分类器来确定哪些内容属于感兴趣的领域，然后使用安全推理器来审查该内容。安全推理器根据详细的分类法对模型输出进行分类，以确定如何最佳响应，构成了我们跨 GPT‑5 和 ChatGPT Agent 等系统的多层安全保障的一部分。现在，gpt-oss-safeguard 模型将这种相同的方法提供给所有人。

gpt-oss-safeguard 的表现如何

我们使用内部和外部评估集对 gpt-oss-safeguard 模型进行了评估。

在内部评估中，我们在推理时向 gpt-oss-safeguard 同时提供了多个策略。对于每个测试输入，我们评估 gpt-oss-safeguard 是否根据所有包含的策略正确分类了文本。这是一项具有挑战性的任务——只有当模型与所有包含策略的黄金标准标签完全匹配时，才算准确。

我们的 gpt-oss-safeguard 模型和内部安全推理器在多策略准确性方面优于 gpt-5-thinking 和 gpt-oss 开放模型。考虑到前者的模型尺寸较小，gpt-oss-safeguard 模型优于 gpt-5-thinking 尤其令人惊讶。

我们进一步在我们随 2022 年研究论文（在新窗口中打开）发布的审核数据集以及在 ToxicChat（在新窗口中打开）（一个基于用户对开源聊天机器人查询的公共基准）上评估了这些模型。

在 2022 年的审核评估集上，我们使用内部安全策略进行了评估（调整了一个策略以适应后续变化）。gpt-oss-safeguard 略微优于所有其他经过测试的模型，包括我们的内部安全推理器和 gpt-5-thinking，尽管 Safety Reasoner 和 gpt-oss-safeguard 之间的这种差异在统计学上不显著。

对于 ToxicChat，我们使用从我们内部策略改编的简短手写提示进行了评估。我们的内部安全推理器再次优于 gpt-5-thinking，而 gpt-5-thinking 和安全推理器都略微优于 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。我们预计，gpt-oss-safeguard 相对较小的尺寸在此类任务中仍然更具优势。

局限性

gpt-oss-safeguard 有两个特定的局限性。首先，我们观察到，在数万个高质量带标签样本上训练的分类器，在从策略直接推理时，其分类内容的性能仍然可能优于 gpt-oss-safeguard。对于更复杂的风险，投入时间训练一个专用分类器可能会带来更高的性能优势。

其次，gpt-oss-safeguard 可能耗时且计算密集，这使得难以将其扩展到所有平台内容。在内部，我们通过安全推理器以多种方式处理此问题：（1）我们使用更小、更快的分类器来确定要评估哪些内容；（2）在某些情况下，我们异步使用安全推理器，以在保持干预能力的同时提供低延迟的用户体验，以防我们检测到不安全的内容。

前方的道路：继续与社区共同构建

gpt-oss-safeguard 是 OpenAI 与社区共同构建的第一套开放安全模型。我们与 SafetyKit、ROOST、Tomoro 和 Discord 的信任与安全专家一起，作为早期测试的一部分，对 gpt-oss-safeguard 进行了迭代。ROOST 首席技术官 Vinay Rao 表示：“gpt-oss-safeguard 是第一个具有‘自带策略和危害定义’设计的开源推理模型。组织应有权自由研究、修改和使用关键的安全技术并能够进行创新。在我们的测试中，它在理解不同策略、解释其推理以及在应用策略时展现细微差别方面表现出色，我们相信这对构建者和安全团队将是有益的。”

我们将继续与社区合作，改进开放安全工具，包括通过 ROOST 模型社区（RMC）。RMC 汇集了安全从业者和研究人员，以分享将开源 AI 模型集成到安全工作流程中的最佳实践，包括评估结果和模型反馈。请访问 RMC GitHub 仓库（在新窗口中打开）了解有关此合作伙伴关系的更多信息以及如何参与。

要开始使用这些模型，请从 Hugging Face（在新窗口中打开）下载它们。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

发布 gpt-oss-safeguard：支持自定义安全策略的开源安全推理模型（120B和20B）

系统级安全：安全分类器的作用

我们在内部如何使用安全推理

gpt-oss-safeguard 的表现如何

局限性

前方的道路：继续与社区共同构建

评论区