优化 AI 智能体设计：提升对“提示注入”的免疫力-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/designing-agents-to-resist-prompt-injection

原文作者：Thomas Shadwell、Adrian Spânu

AI 智能体正在展现出日益强大的能力。它能够浏览网页、检索信息并代表用户执行操作。这些功能固然实用，但也为攻击者操控系统提供了新的途径。

这类攻击通常被称为提示注入 (Prompt Injection)：即在外部内容中植入指令，企图诱导模型执行非用户要求的操作。根据我们的经验，在现实场景中，这类攻击最有效的变体已不再是简单的提示词覆盖，而是越来越与社会工程学 (Social Engineering) 相类似。

这种转变至关重要。如果核心问题不再仅仅是识别恶意字符串，而是如何抵御上下文中的误导或操纵性内容，那么防御手段就不能单纯依靠输入过滤。这还要求在系统设计上实现这样的目标：即便部分攻击得逞，其操纵行为所能产生的影响也必须是受限且可控的。

“提示注入”正在演变

早期的“提示注入”类攻击手段非常简单，例如只需在维基百科条目中植入针对 AI 智能体的直接指令；由于 AI 模型在训练阶段缺乏应对此类对抗环境的经验，往往会不加思索地执行这些指令。随着模型变得更加智能，它们对这类简单暗示的抵御能力也随之增强。然而，根据我们的观察，“提示注入”类攻击也随之演变，开始融入社会工程学元素。

在更广泛的 AI 安全生态系统中，业界普遍建议采用“AI 防火墙”等技术。这类技术在 AI 智能体与外界之间设置一道中介，试图将输入内容分类为“恶意提示注入”或“正常输入”— 但那些高度成熟的攻击手段通常无法被这类系统捕获。对于这类系统而言，识别恶意输入已经演变成一个极其棘手的难题，其难度等同于识别谎言或虚假信息，而且往往还缺乏必要的上下文信息。

社会工程学与 AI 智能体

随着现实世界中“提示注入”攻击的复杂程度不断提升，我们发现，最有效的攻击手段往往利用了社会工程学手段。我们并不将这类带有社会工程学色彩的“提示注入”视为一类独立的全新问题，而是借鉴了其他领域的经验，采用防御“针对人类的社会工程学”的思路来加以应对。

在这些系统中，目标不仅限于完美识别恶意输入，更在于通过设计智能体和系统，确保即便操纵得逞，其产生的影响也是受限且可控的。事实证明，这类系统能有效降低“提示注入”和社会工程学风险。

这一思路对 ChatGPT 防御策略的启发

在 ChatGPT 中，我们将这种社会工程学模型与更传统的安全工程方法（如 Source-Sink 分析）相结合。在这种架构下，攻击者需要同时具备“源”（Source，即影响系统的方式）和“汇”（Sink，即在错误上下文中会带来危险的能力）。我们的目标是维护用户对安全的核心预期：任何潜在的危险操作，或对潜在敏感信息的传输，都不应在静默状态下或缺乏适当保护的情况下发生。

针对智能体可能被“说服”的情况，我们开发了一种名为 Safe URL 的缓解策略。该策略旨在检测助手是否试图将在对话中获取的信息传输给第三方。在这种罕见情况下，我们要么向用户展示即将传输的信息并请求确认，要么直接阻断传输并指示智能体尝试其他方式来完成用户请求。

展望未来

与具有对抗性的外部世界进行安全交互，是实现全自主智能体的必要条件。在将 AI 模型集成到应用系统中时，建议参考人类员工在类似场景下的权限配置，并在系统中予以落实。我们将继续探索针对 AI 模型的社会工程学影响及防御对策，并将研究成果融入应用安全架构和 AI 模型的训练过程中。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

优化 AI 智能体设计：提升对“提示注入”的免疫力

“提示注入”正在演变

社会工程学与 AI 智能体

这一思路对 ChatGPT 防御策略的启发

展望未来

评论区