📢 转载信息
原文链接:https://www.technologyreview.com/2026/02/11/1132768/is-a-secure-ai-assistant-possible/
原文作者:Grace Huckins
AI代理(Agent)是一项风险极高的业务。即使只是被限制在聊天窗口内,大型语言模型(LLM)也会犯错并表现出不良行为。一旦它们获得了可以与外部世界交互的工具,比如网页浏览器和电子邮件地址,这些错误的后果就会变得严重得多。
这或许可以解释为什么第一个突破性的LLM个人助手并非来自那些必须担心声誉和责任的AI大厂,而是来自一位独立软件工程师Peter Steinberger。2025年11月,Steinberger将他的工具——现名为OpenClaw——上传到GitHub,并在1月底该项目走红。

OpenClaw利用现有的LLM,让用户创建自己的定制化助手。对一些用户来说,这意味着要交出海量的个人数据,从多年的电子邮件到硬盘的内容。这让安全专家们感到非常恐慌。OpenClaw带来的风险如此广泛,以至于花上将近一周时间才能读完过去几周内出现的所有关于它的安全博客文章。中国政府甚至公开发布了关于OpenClaw安全漏洞的警告。
针对这些担忧,Steinberger在X上发帖称,非技术人员不应使用该软件。(他没有回应本文的置评请求。)但市场对OpenClaw提供的功能有着明确的需求,而且这不仅限于那些能够运行自己软件安全审计的人。任何希望进入个人助理领域的AI公司,都需要弄清楚如何构建一个能保证用户数据安全可靠的系统。要做到这一点,它们需要借鉴代理安全研究前沿的方法。
风险管理
OpenClaw本质上是LLM的“机甲服”(mecha suit)。用户可以选择任何他们喜欢的LLM作为“驾驶员”;该LLM随后获得了增强的记忆能力,以及设定重复性任务的能力。与大型AI公司的代理产品不同,OpenClaw代理被设计为7天24小时运行,用户可以通过WhatsApp或其他消息应用与它们交流。这意味着它们可以像一个超级强大的个人助理,每天早晨用个性化的待办事项清单叫醒你,在你工作时规划度假,并在业余时间启动新应用。
但所有这些能力都伴随着后果。如果你希望你的AI个人助理管理你的收件箱,你就需要授予它访问电子邮件的权限——以及其中包含的所有敏感信息。如果你希望它代表你进行购买,你需要提供你的信用卡信息。如果你希望它在你的电脑上执行任务,比如编写代码,它就需要一定程度地访问你的本地文件。
这有几种可能出错的方式。第一种是AI助手可能会犯错,比如有报道称用户的Google Antigravity编程代理在误解清除缓存的指令后,抹掉了他整个硬盘。第二种是有人可能使用传统的黑客工具访问该代理,并利用它来提取敏感数据或运行恶意代码。自OpenClaw走红以来,安全研究人员已经展示了无数此类漏洞,使安全意识薄弱的用户面临风险。
这两种危险都可以得到管理:有些用户选择在独立的计算机或云端运行他们的OpenClaw代理,以保护硬盘数据不被擦除;而其他漏洞可以通过久经考验的安全方法来修复。
但与我交谈过的专家们更关注一种更隐蔽的安全风险,即提示注入(prompt injection)。提示注入本质上就是LLM劫持:攻击者只需在LLM可能会浏览的网站上发布恶意文本或图像,或将其发送到LLM读取的收件箱,就可以将其意志屈服于自己。
如果该LLM可以访问用户的任何私人信息,后果将是灾难性的。“使用像OpenClaw这样的东西,就像在街上把钱包交给陌生人,”多伦多大学电气与计算机工程教授Nicolas Papernot说。各大AI公司是否能放心地提供个人助理服务,可能取决于它们能建立起何种质量的防御来抵御此类攻击。
构建护栏
“提示注入”一词由流行的LLM博主Simon Willison于2022年提出,即在ChatGPT发布前几个月。即使在当时,人们也能预见到一旦LLM得到广泛应用,它们将引入一种全新的安全漏洞类型。LLM无法区分来自用户的指令和它们用来执行这些指令的数据(例如电子邮件和网络搜索结果)——对LLM来说,它们都只是文本。因此,如果攻击者在电子邮件中嵌入几句话,而LLM错误地将其识别为来自其用户的指令,攻击者就可以让LLM做任何他们想做的事情。
提示注入是一个棘手的问题,而且短期内似乎不会消失。“我们现在真的没有万无一失的防御措施,”加州大学伯克利分校计算机科学教授Dawn Song说。但有一个活跃的学术界社区正在致力于解决这个问题,他们已经提出了可能最终使AI个人助手安全的策略。
从技术上讲,今天可以在不冒提示注入风险的情况下使用OpenClaw:只要不将它连接到互联网。但是,限制OpenClaw阅读电子邮件、管理日历和进行在线研究,就削弱了使用AI助手的很大意义。保护自己免受提示注入的关键在于,在允许LLM执行其工作的同时,阻止它响应劫持企图。
一种策略是训练LLM忽略提示注入。LLM开发过程的一个主要部分称为后训练(post-training),它涉及将一个能生成逼真文本的模型,通过在它给出适当回答时给予“奖励”,在它失败时给予“惩罚”,将其转变为一个有用的助手。这些奖励和惩罚是比喻性的,但LLM会像动物一样从中学习。通过这个过程,可以训练LLM不响应特定示例的提示注入。
但存在一个平衡:如果训练LLM过于热衷于拒绝被注入的命令,它也可能开始拒绝用户合法的请求。而且由于LLM的行为存在根本上的随机性,即使是经过非常有效的训练来抵御提示注入的LLM,很可能仍然会偶尔失误。
另一种方法是在提示注入攻击到达LLM之前就将其阻止。通常,这涉及使用一个专门的检测器LLM来判断发送给原始LLM的数据是否包含任何提示注入。然而,在最近的一项研究中,即使是性能最好的检测器也完全未能检测出某些类别的提示注入攻击。
第三种策略更为复杂。目标不是通过检测输入数据是否包含提示注入来控制LLM的输入,而是制定一个策略来指导LLM的输出——即它的行为——并阻止它做任何有害的事情。此类防御措施中有些非常简单:例如,如果LLM只被允许向少数预先批准的地址发送电子邮件,那么它肯定不会将用户的信用卡信息发送给攻击者。但这种策略会阻止LLM完成许多有用的任务,例如代表用户研究和联系潜在的专业联系人。
“挑战在于如何准确地定义这些策略,”杜克大学电气与计算机工程教授Neil Gong说。“这是效用和安全之间的权衡。”
从更广泛的层面来看,整个代理世界都在努力应对这种权衡:代理系统要安全到何种程度才能投入使用?专家们意见不一。Song(她的初创公司Virtue AI 生产一个代理安全平台)认为,现在已经可以安全地部署AI个人助手了。但Gong说:“我们还没到那一步。”
即使AI代理目前还不能完全防止提示注入,但肯定有方法可以减轻风险。而且,OpenClaw也可能实施其中一些技术。上周,在旧金山的首次ClawCon活动上,Steinberger宣布,他已聘请了一位安全专家来致力于该工具的改进。
目前,OpenClaw仍然存在漏洞,但这并没有阻止其众多热情的用户。George Pickett是OpenGlaw GitHub存储库的志愿者维护者,也是该工具的粉丝,他说他已经采取了一些安全措施来保护自己在使用它时的安全:他在云中运行它,这样他就不用担心不小心删除硬盘,并且他设置了机制来确保没有其他人可以连接到他的助手。
但他没有采取任何具体的措施来防止提示注入。他意识到了风险,但表示尚未看到任何关于OpenClaw发生这种情况的报告。“也许我的看法是愚蠢的,但我不大可能成为第一个被黑客攻击的人,”他说。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区