📢 转载信息
原文链接:https://openai.com/index/teen-safety-policies-gpt-oss-safeguard
原文作者:OpenAI
今天,我们正式发布了基于提示词的安全策略,旨在帮助开发者为青少年群体构建符合其年龄特点的安全防护机制。该策略配合我们的开放权重安全模型 gpt-oss-safeguard 使用,能够大幅简化开发流程,将抽象的安全需求直接转化为适用于真实系统的分类器。
我们发布开放权重模型,初衷是希望推动 AI 技术的普惠与广泛创新。与此同时,我们坚信安全与创新并行不悖 — 开发者在获取强大模型能力的同时,也应当拥有配套的工具与策略,以确保其部署过程安全且负责。
立足于我们在青少年保护领域的深厚积淀
我们长期致力于在确保安全的前提下,通过 AI 技术为青少年创造更多机遇。作为这项工作的核心,我们更新了模型规范,正式将“18岁以下 (U18) 保护原则”纳入其中。此外,我们还推出了一系列产品层面的安全措施,如家长控制功能和年龄预测机制,以全方位守护年轻用户。
将青少年安全准则转化为清晰的可落地策略
虽然像 gpt-oss-safeguard 这样的安全分类器可以识别违规内容,但其有效性高度依赖于对“违规”的精准定义。在实际操作中,开发者面临的最大挑战之一,就是如何制定既能精准捕捉青少年特定风险,又能在真实系统中稳定执行的安全策略。
这套策略专门针对青少年面临的常见风险量身定制,并参考了关于青少年身心发展差异的深度研究。首批发布的策略涵盖以下方面:
- 血腥暴力内容
- 露骨色情内容
- 不良身体审美导向与行为
- 危险活动与挑战
- 浪漫或暴力色情角色扮演
- 年龄受限的商品与服务
汇聚外部专家智慧
在制定这些策略的过程中,我们与 Common Sense Media 和 everyone.ai 等外部机构开展了深度合作。他们的专业见解帮助我们明确了内容覆盖范围,并优化了评估边缘案例的能力。
“这些基于提示词的策略为整个行业生态设定了极具意义的安全基准线;得益于其开源属性,这些策略还能随时间不断演进与完善。”
— Robbie Torney,Common Sense Media AI 与数字评估负责人
安全防护的起点,而非终点
需要说明的是,这些策略只是安全防护的起点。我们强烈建议开发者根据自身需求,对这些策略进行调整与扩充,并将其与其他防护措施相结合。我们坚信,构建更安全的 AI 系统必须采用纵深防御策略。
欢迎访问 RMC GitHub 代码仓库参与贡献,共同为 AI 系统安全策略的落地筑起更坚实的行业共识。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区