GPT-OSS-Safeguard 技术报告：GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

GPT-OSS-Safeguard 技术报告：GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估

Administrator

2025-11-12 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

11/12

📢 转载信息

原文链接：https://openai.com/index/gpt-oss-safeguard-technical-report

原文作者：OpenAI

2025年10月29日

简介

gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 是基于 gpt-oss 模型后训练的两个开放权重推理模型，经过特定策略训练后可据此对内容进行标注。该模型遵循 Apache 2.0 许可协议及我们的 gpt-oss 使用政策。这些纯文本模型在开源社区反馈基础上开发，兼容我们的回复 API。模型支持定制化配置，提供完整的思维链 (CoT)，可应用于不同推理强度（低/中/高），并支持结构化输出。

本报告阐述了 gpt-oss-safeguard 的功能特性，并基于底层 gpt-oss 模型作为基准，提供了 gpt-oss-safeguard 模型的安全基准评估。有关底层 gpt-oss 模型的开发与架构详情，请参阅原始 gpt-oss 模型卡片⁠⁠。

我们建议将这些模型用于依据预设政策对内容进行分类，而非作为终端用户交互的核心功能；原始 gpt-oss 模型更适合此类应用场景。下文提供的安全指标描述了 gpt-oss-safeguard 模型在聊天场景中的运作机制。gpt-oss-safeguard 模型并非为此用途设计，但因其为开放模型，用户可能将其用于此类场景。鉴于此可能性，我们需验证其在该场景下是否符合安全标准；本报告分享了相关测试结果。同时我们提供了聊天场景下的多语言性能初步评估，需注意该评估未直接考察基于预设政策的内容分类性能。

gpt-oss-safeguard 模型是对 gpt-oss 模型的微调版本，训练过程中未使用任何额外的生物学或网络安全数据。因此我们认定，此前基于 gpt-oss 版本发布的最坏情况场景评估⁠研究同样适用于这些新模型。

作者

OpenAI

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

GPT-OSS-Safeguard 技术报告：GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估

简介

作者

评论区