📢 转载信息
原文链接:https://openai.com/index/gpt-oss-safeguard-technical-report
原文作者:OpenAI
发布于 2025年10月29日
技术报告
Performance and baseline evaluations of gpt-oss-safeguard-120b and gpt-oss-safeguard-20b
引言
gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是两个开源权重推理模型,它们是在 gpt-oss 模型基础上进行后训练,并专门训练用于根据提供的策略进行推理以标记内容的模型。它们根据 Apache 2.0 许可证和我们的 gpt-oss 使用策略发布。这些纯文本模型是在听取了开源社区的反馈后开发的,与我们的 Responses API 兼容。这些模型是可定制的,提供完整的思维链 (CoT),可以用于不同的推理努力级别(低、中、高),并支持结构化输出。
在本报告中,我们描述了 gpt-oss-safeguard 的能力,并提供了基于 gpt-oss 模型的基线安全评估。有关底层 gpt-oss 模型开发和架构的更多信息,请参阅原始的 gpt-oss 模型卡。
我们建议使用这些模型根据提供的策略对内容进行分类,而不是将其作为终端用户互动的核心功能;对于这些应用,原始的 gpt-oss 模型更为合适。下面提供的安全指标描述了 gpt-oss-safeguard 模型在聊天环境中的功能表现。gpt-oss-safeguard 模型并非为此用途设计,但由于它们是开源模型,所以有人可能会以这种方式使用它们。鉴于这种可能性,我们希望验证它们在这种使用情况下是否符合我们的安全标准;本报告分享了这些测试的结果。我们还分享了在聊天环境中进行多语言性能的初步评估;请注意,这并不直接评估使用给定策略进行内容分类时的性能。
gpt-oss-safeguard 模型是其 gpt-oss 对应模型的微调版本,并且在没有添加任何额外的生物或网络安全数据的情况下进行了训练。因此,我们确定了先前关于 gpt-oss 发布中“估计最坏情况前沿风险”的研究结果也适用于这些新模型。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区