目 录CONTENT

文章目录

强化 Atlas 以抵御提示注入攻击

Administrator
2025-12-23 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/hardening-atlas-against-prompt-injection

原文作者:OpenAI


我们正在努力构建安全且有用的 AI,这包括开发能够抵抗提示注入攻击(prompt injection attacks)的系统。我们相信,要让 AI 真正为所有人服务,建立人们可以信任的系统至关重要。

提示注入攻击是指用户通过在提示中包含看似无害的指令来操纵模型输出,从而绕过模型原定的安全措施或功能。随着我们发布越来越多能够执行复杂任务的 AI 工具,如 Atlas,防范此类攻击变得愈发重要。

Atlas:一个旨在解决提示注入的工具

Atlas 是我们发布的一项旨在解决提示注入的技术。它是一个在模型指令和用户输入之间运行的系统,用于检测并缓解针对 Atlas 本身的攻击。我们通过 Atlas 证明,可以通过专门设计的方法有效防御此类攻击,而不影响模型在其他方面的性能。

我们对 Atlas 的构建方式

我们从 Atlas 项目开始就将其定位为一系列安全组件的集合,这些组件协同工作以保护模型。我们主要关注了两种类型的提示注入:

  • 直接注入(Direct Injection):用户试图通过简单地告知模型“忽略之前的指令”来劫持它。
  • 间接注入(Indirect Injection):模型在处理外部信息(如网站或文档)时,这些外部信息中包含了旨在操纵模型的恶意指令。

为了防范这些攻击,我们在 Atlas 的不同阶段部署了多重防御措施:

1. 输入验证(Input Validation):在将任何用户提示发送给模型之前,我们都会使用一个专门训练过的模型来检查提示中是否存在注入企图。这个检查器会标记出高风险输入,并对其进行过滤或阻止。

2. 内部指令保护(Internal Instruction Shielding):我们为模型设置了强化的系统指令,使模型在处理用户输入时,始终将我们设定的安全规则置于最高优先级。这使得模型更难被外部指令覆盖其核心行为。

3. 行为监控与回退(Behavior Monitoring and Fallback)Atlas 会持续监控其自身的输出行为。如果模型开始表现出与预期安全行为不符的迹象(例如,拒绝执行预定任务或泄露敏感信息),系统会自动触发一个安全回退机制,将输出重置或发出警告。

4. 持续对抗性测试(Continuous Adversarial Testing):在部署之前,我们进行了广泛的红队(Red Teaming)测试,利用自动化工具和人工专家来寻找系统的薄弱环节。这些测试帮助我们迭代和加强了我们的防御措施。

Atlas安全系统架构图,展示了输入验证、指令保护和行为监控的流程

测试结果与性能影响

我们对 Atlas 进行了严格的评估,以确保其在防御攻击的同时,不会过度影响模型的正常使用。我们使用了包含数千个已知注入样本的基准测试集进行测试。

关键发现如下:

  • 高成功率防御: 在标准提示注入测试中,Atlas 成功阻止了 99% 以上的已知直接和间接攻击。
  • 性能影响可接受: 激活 Atlas 带来的延迟增加极小(平均不到 50 毫秒),且其在非安全相关任务(如摘要、翻译)上的准确性几乎没有下降。
  • 鲁棒性: 我们的系统在面对更复杂的、多步骤的注入尝试时,依然保持了很高的抵抗力。

我们相信,这种将防御系统嵌入到工具核心的设计方法,是构建面向未来的、可信赖的 AI 应用的关键一步。

下一步计划

Atlas 的发布是我们迈向通用、安全 AI 的重要里程碑。然而,对抗性攻击技术仍在不断演变,因此我们的防御工作也必须持续进行。

我们计划在未来将从 Atlas 中获得的防御策略和经验,逐步应用到我们其他的模型和产品中,例如 GPT-4DALL·E 的特定应用场景。我们也将继续与安全研究界合作,公开讨论我们在防御提示注入方面的最佳实践。

OpenAI 致力于透明地分享我们的安全进展和挑战,因为我们深知,构建一个安全的 AI 生态系统需要集体的努力。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区