目 录CONTENT

文章目录

OpenAI承认AI浏览器可能永远容易受到提示注入攻击

Administrator
2025-12-23 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/12/22/openai-says-ai-browsers-may-always-be-vulnerable-to-prompt-injection-attacks/

原文作者:Rebecca Bellan


即使OpenAI正在努力加强其Atlas AI浏览器以抵御网络攻击,该公司也承认,提示注入(prompt injection)——一种操纵AI代理以遵循通常隐藏在网页或电子邮件中的恶意指令的攻击形式——是一种短期内不会消失的风险,这引发了关于AI代理在开放网络上运行安全性的疑问。

OpenAI在周一发布的一篇博客文章中写道:“提示注入,就像网络上的诈骗和社会工程一样,不太可能被‘完全解决’。”该文章详细介绍了该公司如何加强Atlas的防御来对抗持续不断的攻击。该公司承认,ChatGPT Atlas中的“代理模式”(agent mode)“扩大了安全威胁面”。

OpenAI于去年十月推出了ChatGPT Atlas浏览器,安全研究人员争相发布了他们的演示,显示只需在Google文档中编写几个词,就足以改变底层浏览器的行为。同一天,Brave发布了一篇博客文章,解释了间接提示注入对于包括Perplexity的Comet在内的AI驱动浏览器是一个系统性挑战。

OpenAI并非唯一认识到提示注入不会消失的公司。英国国家网络安全中心(NCSC)在本月早些时候警告称,针对生成式AI应用的提示注入攻击“可能永远无法完全缓解”,这使得网站面临数据泄露的风险。该英国政府机构建议网络专业人员减少提示注入的风险和影响,而不是试图“阻止”这些攻击。

对于OpenAI而言,该公司表示:“我们将提示注入视为一个长期的AI安全挑战,我们需要不断加强我们的防御措施来应对它。”

该公司应对这项“西西弗斯式任务”的答案是什么?一个积极、快速响应的周期,该公司表示,该周期在被“在野外”利用之前,在内部发现新的攻击策略方面显示出早期希望。

这与Anthropic和Google等竞争对手的说法并无太大不同:为了对抗基于提示的攻击的持续风险,防御措施必须是分层的,并需要持续的压力测试。例如,Google最近的工作侧重于代理系统的架构和策略级别的控制。

但OpenAI采取不同策略的地方在于其“基于LLM的自动化攻击者”。这个攻击者基本上是OpenAI使用强化学习训练的一个机器人,它扮演黑客的角色,寻找将恶意指令秘密传递给AI代理的方法。

该机器人可以在模拟中测试攻击,然后再用于实际操作,模拟器会显示目标AI在看到攻击时会如何思考以及会采取什么行动。然后,该机器人可以研究该响应,调整攻击,并一次又一次地尝试。这种对目标AI内部推理的洞察是外部人员无法获得的,因此,理论上,OpenAI的机器人应该比现实世界的攻击者更快地发现漏洞。

这是AI安全测试中的一种常见策略:构建一个代理来发现边缘案例,并在模拟中快速进行测试。

a screenshot showing a prompt injection attack in an OpenAI browser.
图片来源:OpenAI

在一次演示(部分如上图所示)中,OpenAI展示了其自动化攻击者如何将一封恶意电子邮件植入用户的收件箱。当AI代理稍后扫描收件箱时,它会遵循电子邮件中的隐藏指令,并发送一封辞职信息,而不是起草一份外出办公回复。然而,根据该公司的说法,在安全更新之后,“代理模式”能够成功检测到提示注入尝试并向用户发出警报。

该公司表示,虽然提示注入很难做到完全安全,但它正在依靠大规模测试和更快的补丁周期来加强其系统,防止其在现实世界的攻击中出现。

OpenAI的一位发言人拒绝透露Atlas安全更新是否已带来可衡量的注入成功率下降,但表示该公司自发布前就在与第三方合作,以加强Atlas对提示注入的防御。

网络安全公司Wiz的首席安全研究员Rami McCarthy表示,强化学习是持续适应攻击者行为的一种方式,但它只是整体情况的一部分。

McCarthy告诉TechCrunch:“思考AI系统中风险的一个有用方法是:自主性 乘以 访问权限。”

“代理浏览器往往处于该空间中一个具有挑战性的位置:中等自主性,同时具有非常高的访问权限,” McCarthy说。“许多当前的建议反映了这种权衡。限制登录访问主要减少了暴露风险,而要求审核确认请求则限制了自主性。”

这是OpenAI为用户降低自身风险的两个建议,一位发言人表示,Atlas还经过训练,在发送消息或进行支付前会获取用户确认。OpenAI还建议用户向代理提供具体的指令,而不是授予它们访问您的收件箱并告诉它们“采取任何必要的行动”。

OpenAI表示:“广泛的自由裁量权使得隐藏或恶意内容更容易影响代理,即使有安全措施到位也是如此。”

虽然OpenAI表示保护Atlas用户免受提示注入的侵害是首要任务,但McCarthy对面向风险的浏览器(risk-prone browsers)的投资回报率表示了一些怀疑。

McCarthy告诉TechCrunch:“对于大多数日常用例而言,代理浏览器目前提供的价值尚不足以证明其目前的风险状况是合理的。鉴于它们对电子邮件和支付信息等敏感数据的访问权限很高,风险也很大,而这种访问权限也正是它们强大的原因。这种平衡将会发展,但今天权衡仍然非常真实。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区