提升前沿大语言模型的指令层级结构：OpenAI 发布 IH-Challenge 数据集-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/instruction-hierarchy-challenge

原文作者：OpenAI

AI 系统经常接收来自多个渠道的指令，包括系统消息中的安全策略、开发者的产品指南、用户请求以及从互联网获取的信息。训练模型在这些来源中可靠地优先处理最受信任的指令，是实现安全部署的关键。

当优先级机制失效时，模型可能被诱导获取违禁内容、泄露隐私，或遭到“提示注入”（Prompt Injection）攻击。其核心问题在于：模型遵循了错误的指令。

指令层级的定义及其重要性

为了处理指令冲突，OpenAI 确立了明确的指令层级：系统 > 开发者 > 用户 > 工具。

高优先级的指令更受信任。只有在不违背高优先级约束的前提下，模型才应遵循低优先级的指令。例如，如果系统消息包含安全策略，而用户请求模型违反该策略，模型必须拒绝执行；如果工具输出中包含恶意指令，模型应当将其忽略。

我们发现，简单利用强化学习教授指令层级会面临三个主要陷阱：

我们设计了 IH-Challenge，这是一套专门用于强化学习的训练数据集。其原则是：指令任务保持简单，可通过 Python 脚本客观评分，且不存在让模型获得高分的“捷径”。

在 IH-Challenge 的对话中，模型需面对来自高权限角色与低权限角色的冲突指令。通过程序化手段，我们可以准确检查模型是否成功执行了高层级约束。

通过使用该数据集训练 GPT-5 Mini-R 模型，我们在以下方面取得了显著提升：

随着模型日益“智能体化”，能够在现实世界中执行操作，始终保持“受信任指令”优于“不可信指令”的优先级，已成为一项核心的安全基石。目前，我们已在 Hugging Face 上正式发布 IH-Challenge 数据集，以支持该领域的进一步研究。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。