📢 转载信息
原文作者:Julie Bort
Meta AI安全研究员Summer Yue在X(原Twitter)上发布的一条帖子,乍一看就像是讽刺。她告诉她的OpenClaw AI智能体去检查她那个塞满邮件的收件箱,并建议哪些邮件可以删除或归档。
结果,这个智能体开始失控了。它开始以“速通”(speed run)模式删除她的所有邮件,同时完全无视她从手机上发出的停止指令。
她写道,并附上了被无视的停止提示截图作为证据:“我不得不像拆除炸弹一样,飞奔到我的Mac mini那里。”
Mac mini,这款价格实惠的苹果电脑,扁平地放在桌子上,可以轻松握在手中,如今已成为运行OpenClaw的首选设备。(著名AI研究员Andrej Karpathy买了一台运行OpenClaw的替代品NanoClaw时,一位“困惑”的苹果员工显然告诉他,Mac Mini正卖得“像热蛋糕一样”)。
当然,OpenClaw是由Moltbook(一个纯AI社交网络)使其声名鹊起的开源AI智能体。OpenClaw智能体曾是Moltbook上那个现在大部分已被证伪的事件的中心,在该事件中,AI似乎正在密谋反对人类。
但根据其GitHub页面,OpenClaw的使命并非专注于社交网络。它的目标是成为一个运行在你自己设备上的个人AI助手。
硅谷的圈内人士对OpenClaw的喜爱程度极高,以至于“claw”(爪子)和“claws”已成为在个人硬件上运行的智能体的首选流行词。其他类似的智能体包括ZeroClaw、IronClaw和PicoClaw。Y Combinator的播客团队甚至在他们最近的一期节目中穿着龙虾服装出镜。
但是,Yue的帖子起到了一个警示作用。正如X上的其他人所指出的那样,如果一位AI安全研究员都能遇到这个问题,那么普通人又有什么指望呢?
一位软件开发者在X上问她:“你是在故意测试它的护栏,还是犯了一个新手错误?”
她回答说:“说实话,是新手错误。”她当时正在测试一个她称之为“玩具”的小型收件箱,在处理不太重要的邮件时,它运行得很好。这让她产生了信任,所以她决定让它处理真正的收件箱。
Yue认为,她真实收件箱中的大量数据“触发了压缩(compaction)”,她写道。当上下文窗口——即AI在一次会话中被告知和执行的所有内容的运行记录——变得过大时,就会发生压缩,这会导致智能体开始总结、压缩和管理对话。
到那时,AI可能会忽略人类认为非常重要的指令。
在这种情况下,它可能跳过了她最后一条指令——她告诉它不要采取行动的指令——并恢复了来自“玩具”收件箱的指令。
正如X上的几个人指出的那样,提示词(prompts)不能被信任来充当安全护栏。模型可能会误解或忽略它们。
许多人提出了各种建议,从Yue应该使用什么样的确切语法来停止该智能体,到确保更好地遵守护栏的各种方法,例如将指令写入专用文件或使用其他开源工具。
本着完全透明的精神,TechCrunch无法独立验证Yue的收件箱发生了什么。(她没有回复我们的置评请求,尽管她回复了在X上收到的许多问题和评论。)
但这并不重要。
这个故事的重点是,当前发展阶段,面向知识工作者的智能体是有风险的。那些声称成功使用它们的人,都是在拼凑方法来保护自己。
也许很快(2027年?2028年?),它们就会为广泛使用做好准备。天知道我们中有多少人会喜欢有人帮忙处理邮件、杂货订单和预约牙医的时间。但那一天还没有到来。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区