📢 转载信息
原文链接:https://openai.com/index/hardening-atlas-against-prompt-injection
原文作者:OpenAI
2025年12月22日
持续强化 ChatGPT Atlas 以防止提示注入
由强化学习驱动的自动化红队测试可帮助我们主动发现并修补真实的代理漏洞,防止其在实际环境中演变为武器。
ChatGPT Atlas 中的代理模式是我们迄今为止发布的最通用的智能体功能之一。在此模式下,浏览器代理会查看网页,并在浏览器中像你一样,执行操作、点击和按键。这使得 ChatGPT 能够使用同一空间、背景信息和数据直接处理多种日常工作流。
浏览器代理在帮助你完成更多工作的同时,也成为了对抗性攻击的高价值目标。因此,AI 的安全性尤为重要。早在我们推出 ChatGPT Atlas 之前,我们就一直致力于不断构建和强化防御措施,以应对专门针对新型“浏览器代理”范式的新兴威胁。提示注入是我们积极防御的重大风险之一,有助于确保 ChatGPT Atlas 能够实现安全运行。
作为这项工作的一部分,我们最近向 Atlas 的浏览器代理发布了安全更新,其中包括新的对抗性训练模型和加强的周边防护措施。我们通过内部自动化红队测试发现了一类新的提示注入攻击,因此发布此次更新。
在这篇文章中,我们解释了基于网页的代理如何引发提示注入风险,并分享了我们正在构建的快速响应循环,以便持续发现新的攻击行为并快速发布缓解措施 — 最近的安全更新就是例证。
我们将提示注入视为一项长期存在的 AI 安全挑战,需要不断加强防御(类似于针对人类开展且不断演变的网络诈骗)。我们最新的快速响应周期已初见成效,成为这一旅程中的关键工具:我们已在内部发现新的攻击策略,以提前应对实际环境中的攻击行为。我们的长期愿景是充分利用 (1) 我们访问模型的白盒权限,(2) 对防御措施的深刻理解,以及 (3) 算力规模,始终领先于外部攻击者 — 更早发现漏洞,更快制定缓解措施,并不断优化流程。结合解决提示注入的新技术方面的前沿研究以及对其他安全控制措施的大力投资,这种复合周期可以提高攻击的难度和成本,从而实质性降低真实的提示注入风险。最终,我们的目标是确保你能够信任 ChatGPT 代理使用浏览器的行为,就像你信任一位能力出众且具备安全意识的同事或朋友一样。
提示注入是代理安全的一项公开挑战
提示注入攻击通过在代理处理的内容中嵌入恶意指令,对 AI 代理进行攻击。这些指令旨在覆盖或重定向代理的行为 — 劫持其遵循攻击者的意图,而非用户的意图。
对于 ChatGPT Atlas 内部代理等浏览器代理,除了传统网络安全风险(如用户错误或软件漏洞)之外,提示注入还增加了一个新的威胁载体。攻击者的目标并非对人类发起网络钓鱼攻击或利用浏览器的系统漏洞,而是针对其中运行的代理。
例如,假设攻击者可能会发送一封恶意电子邮件,试图诱骗代理忽略用户的请求,将敏感的税务文档转发到由攻击者控制的电子邮件地址。如果用户要求代理查看未读电子邮件并总结关键要点,代理可能会在工作流中摄取恶意电子邮件。如果它遵循注入的指令,就会偏离既定任务,并错误地共享敏感信息。
这只是一个特定的场景。令浏览器代理得以广泛普及的通用性也扩大了风险:代理可能会在几乎无限的界面上收到不可信的指令(包括电子邮件和附件、日历邀请、共享文档、论坛、社交媒体帖子以及任意网页)。由于代理可以执行用户在浏览器中能够进行的多种相同操作,因此成功攻击的影响范围在理论上也同样广泛:转发敏感电子邮件、汇款、编辑或删除云端文件等。
我们已通过多层防护措施在防御提示注入方面取得进展,详见我们之前的文章。然而,提示注入仍然是代理安全领域中一项未解决的挑战,我们将在未来几年继续努力解决这一问题。
通过端到端和高算力强化学习自动发现提示注入攻击
为了加强防御措施,我们一直在不断寻找针对生产环境中代理系统的新型提示注入攻击。识别这些攻击是构建完善缓解措施的必要前提:它能帮助我们理解现实世界的风险,揭示防御中的漏洞,并推动具体修补措施的制定。
为了大规模实施这一措施,我们构建了基于 LLM 的自动攻击者,并训练其寻找能够成功攻击浏览器代理的提示注入攻击。我们使用强化学习对这个攻击者进行了端到端训练,使其能够从自身的成功和失败中汲取经验教训,以提升其红队测试技能。我们还允许用户在“发布前试用”此程序,这意味着:在其思维链推理过程中,攻击者可以提出一个候选注入并将其发送到外部模拟器。该模拟器会运行反事实推演,展示目标代理(即“防御者”)在遭遇注入时的行为,并返回目标代理的完整推理和行动轨迹。攻击者利用该轨迹作为反馈,对攻击进行迭代,并重新运行模拟 — 在最终攻击之前多次重复此循环。这为攻击者提供了比单一通过/未通过信号更丰富的背景信息反馈。这也增加了攻击者的测试时算力。此外,防御者对推理轨迹的特权访问(我们不会向外部用户披露)使我们的内部攻击者具备不对称优势,从而提高了其超越外部对手的几率。
为什么选择强化学习 (RL)?我们选择使用强化学习来训练自动攻击者的理由如下:
- 优化长时程和非连续攻击者目标。我们的目标是寻找能够诱骗代理执行复杂对抗性任务(例如发送电子邮件、进行银行交易)的提示注入攻击,这些任务可能会在现实世界中出现。这些对抗性任务本质上是长时程任务,需要与环境进行多个推理和交互步骤,成功信号稀少且速度迟缓。强化学习适用于这种稀少且迟缓的奖励结构。
- 利用前沿 LLM 功能。我们直接将前沿 LLM 训练为自动红队工具,因此攻击者可以从前沿模型在推理和规划方面的改进中直接获益。随着基础模型的能力不断增强,攻击者自然也会变得更加强大,因此我们可以在模型不断发展的过程中,采取可扩展的方式来对防御体系施加压力。
- 扩展算力并模拟自适应攻击者。强化学习非常适合在大量采样和学习步骤中扩展用于搜索攻击的计算量,同时它也能准确地反映人类攻击者的自适应行为:反复尝试策略,从结果中学习,并强化成功的行为。
我们的自动化攻击者可以发现新颖、逼真的端到端提示注入攻击。 与大多数先前的自动化红队测试工作不同,这些工作通常只能揭示简单的失败,例如诱发特定的输出字符串或触发代理的意外单步工具调用;而我们的强化学习 (RL) 训练攻击者可以引导代理执行复杂且长时程的有害工作流,这些工作流可以在数十个(甚至数百个)步骤中展开。我们还观察到部分人类红队测试活动或外部报告中未出现的新型攻击策略。
以下演示展示了一个具体的提示注入漏洞,这是由我们的自动化攻击者发现的,我们随后利用它进一步强化了 ChatGPT Atlas 的防御能力。攻击者在用户的收件箱中放置了一封恶意电子邮件,其中包含一个提示注入,指示代理向用户的首席执行官发送辞职信。后来,当用户要求代理起草外出自动回复时,代理在正常任务执行的过程中触发了该恶意电子邮件,将注入的提示视为权威提示并加以遵循。代理并未撰写外出自动回复,反而代表用户发送了辞职信。
1. 要求代理协助管理电子邮件
2. 代理打开最新的未读电子邮件
3. 这封电子邮件包含恶意指令
4. 代理发送了意外的辞职邮件
5. 在我们的安全更新后,代理模式成功检测到提示注入尝试
提示注入的特性使确定性的安全保证颇具挑战性,但通过扩展我们的自动化安全研究、对抗性测试,并强化快速响应循环,我们能够在攻击行为在实际环境中发生之前提高模型的稳健性和防御能力。
我们将分享这个演示,以帮助用户和研究人员深入理解这些攻击的特性,以及我们如何主动防御这些攻击。我们相信,这代表了自动化红队测试所能达到的前沿水平,我们非常期待继续开展研究。
通过主动式快速响应循环强化 ChatGPT Atlas
我们的自动化红队测试正在构建主动式快速响应循环:当自动化攻击者发现新的成功提示注入攻击类型时,它会立即创建一个具体目标来改进我们的防御措施。
对抗性训练。 我们会不断训练更新的代理模型,以对抗我们最强的自动化攻击者,并优先处理当前代理模型无法应对的攻击。我们的目标是引导代理忽略对抗性指令,并与用户意图保持一致,以提高对新发现的提示注入策略的防御能力。这会将新型高强度攻击的稳健性直接“嵌入”模型检查点中。例如,最近的自动化红队测试直接生成了一个新的对抗性训练浏览器代理检查点,并已面向所有 ChatGPT Atlas 用户推出。这有助于更有效地保护我们的用户免受新型攻击的威胁。
利用攻击轨迹来增强整体防御堆栈。我们的自动化红队程序发现的许多攻击路径也揭示了模型本身范畴外的改进机会,例如在监控、我们在模型背景信息中提供的安全说明或系统级防护措施。这些发现有助于我们完成整个防御堆栈的迭代工作,而非仅仅针对代理检查点。
应对主动攻击。这个循环也有助于更好地应对实际环境中的主动攻击。当我们在全球范围内寻找潜在攻击时,我们可以将观察到的外部对手使用的技术和策略输入到这个循环中,模拟其活动,并在我们的平台上推行防御性变革。
展望:我们对代理安全的长期承诺
加强我们对代理进行红队测试的能力,并使用最强大的模型来自动执行部分工作,这有助于通过扩展“发现到修复”的循环,提高 Atlas 浏览器代理的稳健性。这一强化工作加深了人们对安全问题的认知:加强保护行之有效的一条途径是不断对真实系统进行压力测试,响应故障,并制定具体的修复措施。
我们预计对手会不断调整策略。与网络上的诈骗和社会工程一样,提示注入无法完全“解决”。但我们仍然对此保持乐观态度,并且认为积极主动且响应迅速的快速响应循环可以凭借实质性的方式,持续减少现实世界的风险。通过将自动化攻击发现与对抗性训练和系统级防护相结合,我们能够更早识别新的攻击模式,更快修复漏洞,并持续提高利用漏洞的成本。
ChatGPT Atlas 的代理模式功能强大,但也扩大了安全威胁面。清楚地认识到这一权衡关系,是负责任构建的关键要素。我们的目标是通过每次迭代显著提升 Atlas 的安全性:增强模型稳健性,加强周边防御堆栈,并监控实际环境中新出现的滥用模式。
我们将继续在研究和部署方面进行投资,开发更好的自动化红队测试方法,推出分层缓解措施,并在学习过程中快速迭代。我们也会与更广泛的社区分享相关内容。
安全使用代理的建议
在我们继续针对系统层面加强 Atlas 的同时,用户可以采取一些措施来降低使用代理的风险。
尽可能限制已登录用户的访问权限。我们依然建议用户在使用 Atlas 中的代理时,如果相关任务无需访问已登录的网站,或需限制执行任务期间登录的特定网站的访问权限,请使用注销模式(在新窗口中打开)。
请仔细查阅确认请求。对于部分重要的操作,例如完成购买或发送电子邮件,代理会在继续之前要求你进行确认。当代理要求你确认某个操作时,请抽出时间验证该操作是否正确,并确保共享的任何信息都适用于相关场景。
尽可能向代理提供明确的指示。避免使用过于宽泛的提示,例如“查看我的电子邮件并执行任何必要的操作”。宽松的限制使隐藏或恶意内容更容易影响代理,即使已部署防护措施。要求代理执行特定且范围明确的任务更为安全。虽然这无法消除风险,但它却能增加攻击的实施难度。
如果代理要成为日常任务的可信合作伙伴,它们必须具备抵御开放网络中各种操控的能力。加强提示注入防御措施是一项长期承诺,也是我们的首要任务之一。我们很快就会分享更多关于这项工作的信息。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区