📢 转载信息
原文链接:https://openai.com/index/gpt-oss-safeguard-technical-report
原文作者:OpenAI
2025年10月29日
简介
gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 是基于 gpt-oss 模型后训练的两个开放权重推理模型,经过特定策略训练后可据此对内容进行标注。该模型遵循 Apache 2.0 许可协议及我们的 gpt-oss 使用政策。这些纯文本模型在开源社区反馈基础上开发,兼容我们的回复 API。模型支持定制化配置,提供完整的思维链 (CoT),可应用于不同推理强度(低/中/高),并支持结构化输出。
本报告阐述了 gpt-oss-safeguard 的功能特性,并基于底层 gpt-oss 模型作为基准,提供了 gpt-oss-safeguard 模型的安全基准评估。有关底层 gpt-oss 模型的开发与架构详情,请参阅原始 gpt-oss 模型卡片。
我们建议将这些模型用于依据预设政策对内容进行分类,而非作为终端用户交互的核心功能;原始 gpt-oss 模型更适合此类应用场景。下文提供的安全指标描述了 gpt-oss-safeguard 模型在聊天场景中的运作机制。gpt-oss-safeguard 模型并非为此用途设计,但因其为开放模型,用户可能将其用于此类场景。鉴于此可能性,我们需验证其在该场景下是否符合安全标准;本报告分享了相关测试结果。同时我们提供了聊天场景下的多语言性能初步评估,需注意该评估未直接考察基于预设政策的内容分类性能。
gpt-oss-safeguard 模型是对 gpt-oss 模型的微调版本,训练过程中未使用任何额外的生物学或网络安全数据。因此我们认定,此前基于 gpt-oss 版本发布的最坏情况场景评估研究同样适用于这些新模型。
作者
OpenAI
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区