📢 转载信息
原文链接:https://openai.com/index/teen-safety-policies-gpt-oss-safeguard
原文作者:OpenAI
为青少年打造更安全的AI体验:OpenAI发布GPT-OSS Safeguard适用的青少年安全策略
今天,我们发布了基于提示词的安全策略,旨在帮助开发者为青少年创建符合年龄的保护措施。这些策略是为配合我们开源的重量级安全模型gpt-oss-safeguard而设计的,能够简化开发者将安全要求转化为可用分类器的过程。
我们发布开源模型是为了普及强大AI的访问权限并支持广泛的创新。与此同时,我们相信安全与创新并行不悖,开发者应在获得强大模型的同时,也能获得安全负责地部署它们的工具和策略。我们制定这些策略是为了支持开发者在保护年轻用户方面的安全工作,并吸纳了包括Common Sense Media和everyone.ai在内的可信外部组织的意见。
我们认识到青少年和成人有着不同的需求,青少年需要额外的保护。这些策略旨在帮助开发者考虑到这些差异,并构建既赋能又适合年轻用户的体验。
构建在我们保护年轻人的更广泛工作之上
长期以来,我们一直致力于构建能够扩大年轻人机会同时确保他们安全的AI。作为这项工作的一部分,我们更新了我们的模型规范——即定义OpenAI模型预期行为的指导方针——纳入了18岁以下(U18)原则,并引入了如家长控制和年龄预测等产品级安全措施,以更好地保护年轻用户。我们还通过我们的青少年安全蓝图呼吁行业范围内的保护措施。
今天的发布建立在该基础之上。我们向开发者提供这些安全策略,以支持他们在为青少年部署安全防护措施,并帮助普及开源生态系统的访问权限。
将青少年安全转化为清晰、可用的策略
虽然像gpt-oss-safeguard这样的安全分类器可以检测有害内容,但它们依赖于对有害内容是什么的清晰定义。实际上,开发者面临的最大挑战之一是定义能够准确捕捉青少年特定风险并能在实际系统中一致应用的策略。
即使是经验丰富的团队,在将高层次的安全目标转化为精确、可操作的规则时也常常会遇到困难,尤其是因为它需要主题专业知识和深入的AI知识。这可能导致保护上的漏洞、执行不一致或过滤过于宽泛。清晰、界定明确的策略是有效安全系统的关键基础。
帮助开发者实现青少年安全措施的落地
为了解决这一挑战,我们发布了一系列安全策略,这些策略针对青少年面临的常见风险,并参考了现有关于青少年独特发展差异的研究。这些策略的结构是提示词,可以直接与gpt-oss-safeguard和其他推理模型一起使用,使开发者能够更轻松地在他们的系统中应用一致的安全标准。
首批发布的策略涵盖:
- 图形化暴力内容
- 图形化性内容
- 有害的身体观念和行为
- 危险活动和挑战
- 浪漫或暴力角色扮演
- 限制年龄的商品和服务
这些策略可用于实时内容过滤,以及对用户生成内容的离线分析。
通过将策略构建为提示词,开发者可以更轻松地将它们集成到现有工作流程中,根据用例进行调整,并随着时间的推移进行迭代。
与外部专家合作开发
我们与Common Sense Media和everyone.ai等外部组织合作,为这些策略的开发提供信息。他们的专业知识帮助我们确定了需要涵盖的内容范围,加强了提示词的结构,并完善了评估时需要考虑的边缘情况。
这项工作反映了我们致力于与专家和更广泛的生态系统合作,以改进AI系统支持年轻人的方式。
“青少年AI安全方面最大的差距之一是缺乏清晰、可操作的策略供开发者借鉴。很多时候,开发者都是从零开始。这些基于提示词的策略有助于在整个生态系统中设定有意义的安全底线,而且由于它们是开源发布的,因此可以随着时间的推移进行调整和改进。我们很高兴看到这种基础设施被广泛提供,并希望它能促进整个行业在青少年安全方面的更多共享起点。”
—Robbie Torney, Common Sense Media AI与数字评估主管
“这类让青少年安全策略更具操作性的努力非常有价值,因为它们有助于将专家知识转化为可在实际系统中使用的指导。内容策略是一个重要的第一步,它们也为如何随着时间的推移,模型行为如何影响与青少年相关的风险等方面更广泛的工作打开了大门。受到这项工作和我们自己研究的启发,everyone.ai也创建了一个初步的行为策略,侧重于排他性和过度依赖等风险。”
—Dr. Mathilde Cerioli, everyone.AI首席科学家
起点,而非完整的解决方案
这些策略旨在作为一个起点,而不是一个全面或最终的青少年安全定义或保证。每个应用都有独特的风险、受众和背景,开发者最清楚他们产品和AI集成可能带来的风险。我们强烈鼓励开发者根据其特定需求调整和扩展这些策略,并将它们与其他安全措施相结合,如产品设计决策、用户控件、对青少年友好的透明度、监控系统以及周到、适龄的响应。
我们相信分层纵深防御的方法对于构建更安全的AI系统至关重要。这些策略借鉴了我们的内部经验,但它们并不反映OpenAI内部策略或安全措施的全部范围。
前方的道路
我们通过ROOST Model Community以开源形式发布这些策略,以鼓励合作和迭代。要做出贡献、提供反馈或分享额外的青少年安全策略,请访问RMC GitHub仓库。
开发者和组织可以根据其特定应用调整这些策略,将它们翻译成不同语言,并扩展它们以涵盖其他风险领域。随着时间的推移,我们希望这能为在AI系统中实施安全策略奠定更强大、更共享的基础。
要开始使用gpt-oss-safeguard,请从Hugging Face下载。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区