目 录CONTENT

文章目录

优化 AI 智能体设计:提升对“提示注入”的免疫力

Administrator
2026-04-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/designing-agents-to-resist-prompt-injection

原文作者:Thomas Shadwell、Adrian Spânu


AI 智能体正在展现出日益强大的能力。它能够浏览网页、检索信息并代表用户执行操作。这些功能固然实用,但也为攻击者操控系统提供了新的途径。

这类攻击通常被称为提示注入 (Prompt Injection):即在外部内容中植入指令,企图诱导模型执行非用户要求的操作。根据我们的经验,在现实场景中,这类攻击最有效的变体已不再是简单的提示词覆盖,而是越来越与社会工程学 (Social Engineering) 相类似。

这种转变至关重要。如果核心问题不再仅仅是识别恶意字符串,而是如何抵御上下文中的误导或操纵性内容,那么防御手段就不能单纯依靠输入过滤。这还要求在系统设计上实现这样的目标:即便部分攻击得逞,其操纵行为所能产生的影响也必须是受限且可控的。

“提示注入”正在演变

早期的“提示注入”类攻击手段非常简单,例如只需在维基百科条目中植入针对 AI 智能体的直接指令;由于 AI 模型在训练阶段缺乏应对此类对抗环境的经验,往往会不加思索地执行这些指令。随着模型变得更加智能,它们对这类简单暗示的抵御能力也随之增强。然而,根据我们的观察,“提示注入”类攻击也随之演变,开始融入社会工程学元素。

在更广泛的 AI 安全生态系统中,业界普遍建议采用“AI 防火墙”等技术。这类技术在 AI 智能体与外界之间设置一道中介,试图将输入内容分类为“恶意提示注入”或“正常输入”— 但那些高度成熟的攻击手段通常无法被这类系统捕获。对于这类系统而言,识别恶意输入已经演变成一个极其棘手的难题,其难度等同于识别谎言或虚假信息,而且往往还缺乏必要的上下文信息。

社会工程学与 AI 智能体

随着现实世界中“提示注入”攻击的复杂程度不断提升,我们发现,最有效的攻击手段往往利用了社会工程学手段。我们并不将这类带有社会工程学色彩的“提示注入”视为一类独立的全新问题,而是借鉴了其他领域的经验,采用防御“针对人类的社会工程学”的思路来加以应对。

在这些系统中,目标不仅限于完美识别恶意输入,更在于通过设计智能体和系统,确保即便操纵得逞,其产生的影响也是受限且可控的。事实证明,这类系统能有效降低“提示注入”和社会工程学风险。

这一思路对 ChatGPT 防御策略的启发

在 ChatGPT 中,我们将这种社会工程学模型与更传统的安全工程方法(如 Source-Sink 分析)相结合。在这种架构下,攻击者需要同时具备“源”(Source,即影响系统的方式)和“汇”(Sink,即在错误上下文中会带来危险的能力)。我们的目标是维护用户对安全的核心预期:任何潜在的危险操作,或对潜在敏感信息的传输,都不应在静默状态下或缺乏适当保护的情况下发生。

针对智能体可能被“说服”的情况,我们开发了一种名为 Safe URL 的缓解策略。该策略旨在检测助手是否试图将在对话中获取的信息传输给第三方。在这种罕见情况下,我们要么向用户展示即将传输的信息并请求确认,要么直接阻断传输并指示智能体尝试其他方式来完成用户请求。

展望未来

与具有对抗性的外部世界进行安全交互,是实现全自主智能体的必要条件。在将 AI 模型集成到应用系统中时,建议参考人类员工在类似场景下的权限配置,并在系统中予以落实。我们将继续探索针对 AI 模型的社会工程学影响及防御对策,并将研究成果融入应用安全架构和 AI 模型的训练过程中。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区