📢 转载信息
原文链接:https://openai.com/index/instruction-hierarchy-challenge
原文作者:OpenAI
AI 系统经常接收来自多个渠道的指令,包括系统消息中的安全策略、开发者的产品指南、用户请求以及从互联网获取的信息。训练模型在这些来源中可靠地优先处理最受信任的指令,是实现安全部署的关键。
当优先级机制失效时,模型可能被诱导获取违禁内容、泄露隐私,或遭到“提示注入”(Prompt Injection)攻击。其核心问题在于:模型遵循了错误的指令。
指令层级的定义及其重要性
为了处理指令冲突,OpenAI 确立了明确的指令层级:系统 > 开发者 > 用户 > 工具。
高优先级的指令更受信任。只有在不违背高优先级约束的前提下,模型才应遵循低优先级的指令。例如,如果系统消息包含安全策略,而用户请求模型违反该策略,模型必须拒绝执行;如果工具输出中包含恶意指令,模型应当将其忽略。
为何大规模指令层级训练困难重重
我们发现,简单利用强化学习教授指令层级会面临三个主要陷阱:
- 指令遵循与层级理解混淆: 模型可能因指令复杂而失败,被误判为层级理解缺失。
- 冲突的微妙性: 裁判模型难以客观评估主观性极强的冲突。
- 模型走捷径: 模型可能为了获得高评分而学会“过度拒答”(Overrefusal),拒绝包括良性请求在内的所有指令。
IH-Challenge 方法
我们设计了 IH-Challenge,这是一套专门用于强化学习的训练数据集。其原则是:指令任务保持简单,可通过 Python 脚本客观评分,且不存在让模型获得高分的“捷径”。
在 IH-Challenge 的对话中,模型需面对来自高权限角色与低权限角色的冲突指令。通过程序化手段,我们可以准确检查模型是否成功执行了高层级约束。
结果与稳健性
通过使用该数据集训练 GPT-5 Mini-R 模型,我们在以下方面取得了显著提升:
- 指令层级基准测试性能更强。
- 有效泛化至全新的对抗性测试,而非仅限于训练集。
- 未陷入“过度拒答”困境,保持了极高的实用价值。
随着模型日益“智能体化”,能够在现实世界中执行操作,始终保持“受信任指令”优于“不可信指令”的优先级,已成为一项核心的安全基石。目前,我们已在 Hugging Face 上正式发布 IH-Challenge 数据集,以支持该领域的进一步研究。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区