目 录CONTENT

文章目录

提升前沿大语言模型的指令层级结构:OpenAI 发布 IH-Challenge 数据集

Administrator
2026-04-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/instruction-hierarchy-challenge

原文作者:OpenAI


AI 系统经常接收来自多个渠道的指令,包括系统消息中的安全策略、开发者的产品指南、用户请求以及从互联网获取的信息。训练模型在这些来源中可靠地优先处理最受信任的指令,是实现安全部署的关键。

当优先级机制失效时,模型可能被诱导获取违禁内容、泄露隐私,或遭到“提示注入”(Prompt Injection)攻击。其核心问题在于:模型遵循了错误的指令。

指令层级的定义及其重要性

为了处理指令冲突,OpenAI 确立了明确的指令层级:系统 > 开发者 > 用户 > 工具

高优先级的指令更受信任。只有在不违背高优先级约束的前提下,模型才应遵循低优先级的指令。例如,如果系统消息包含安全策略,而用户请求模型违反该策略,模型必须拒绝执行;如果工具输出中包含恶意指令,模型应当将其忽略。

安全引导示意图

为何大规模指令层级训练困难重重

我们发现,简单利用强化学习教授指令层级会面临三个主要陷阱:

  • 指令遵循与层级理解混淆: 模型可能因指令复杂而失败,被误判为层级理解缺失。
  • 冲突的微妙性: 裁判模型难以客观评估主观性极强的冲突。
  • 模型走捷径: 模型可能为了获得高评分而学会“过度拒答”(Overrefusal),拒绝包括良性请求在内的所有指令。

IH-Challenge 方法

我们设计了 IH-Challenge,这是一套专门用于强化学习的训练数据集。其原则是:指令任务保持简单,可通过 Python 脚本客观评分,且不存在让模型获得高分的“捷径”。

在 IH-Challenge 的对话中,模型需面对来自高权限角色与低权限角色的冲突指令。通过程序化手段,我们可以准确检查模型是否成功执行了高层级约束。

结果与稳健性

通过使用该数据集训练 GPT-5 Mini-R 模型,我们在以下方面取得了显著提升:

  • 指令层级基准测试性能更强。
  • 有效泛化至全新的对抗性测试,而非仅限于训练集。
  • 未陷入“过度拒答”困境,保持了极高的实用价值。
提示注入攻击抵御示意图

随着模型日益“智能体化”,能够在现实世界中执行操作,始终保持“受信任指令”优于“不可信指令”的优先级,已成为一项核心的安全基石。目前,我们已在 Hugging Face 上正式发布 IH-Challenge 数据集,以支持该领域的进一步研究。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区