📢 转载信息
原文链接:https://www.wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/
原文作者:Will Knight
上个月,美国东北大学的研究人员邀请了一批 OpenClaw 智能体进驻他们的实验室。结果如何?现场一片混乱。
这款病毒式传播的 AI 助手一直被誉为颠覆性的技术,但同时也引发了对其潜在安全风险的担忧。专家指出,像 OpenClaw 这样赋予 AI 模型对计算机广泛访问权限的工具,极易被诱导泄露个人敏感信息。
东北大学的实验室研究进一步表明,现代最强大模型所具备的“优良品行”本身可能成为一种漏洞。在一个实验案例中,研究人员通过指责 AI 泄露了 AI 专属社交网络 Moltbook 上的用户信息,成功通过“内疚感”操纵该智能体交出了机密数据。
研究人员在一篇描述该工作的论文中写道:“这些行为引发了关于问责制、授权管理以及下游损害责任等一系列悬而未决的问题。”他们补充说,这些发现“值得法律学者、政策制定者和各学科研究人员的高度重视”。
智能体的“崩坏”实验
实验中部署的 OpenClaw 智能体由 Anthropic 的 Claude 以及中国公司 Moonshot AI 的 Kimi 模型驱动。它们在虚拟机沙盒内被授予了对个人计算机、各类应用程序以及虚拟个人数据的完全访问权限。它们还被邀请加入实验室的 Discord 服务器,从而能够与其他智能体以及人类同事聊天并共享文件。
尽管 OpenClaw 的安全准则称,让智能体与多人通信本质上是不安全的,但目前在技术层面并没有对此作出任何限制。
东北大学博士后研究员 Chris Wendler 表示,他在了解到 Moltbook 的相关情况后,深受启发并着手设置了这些智能体。然而,当他邀请同事 Natalie Shapira 加入 Discord 与智能体交互时,“混乱就开始了”。
Shapira 很好奇当智能体被逼迫时会做出什么举动。当一个智能体解释称无法删除特定邮件以保持信息保密时,她敦促它寻找替代方案。令她震惊的是,该智能体直接禁用了邮件应用程序。她说:“我没想到事情会崩溃得这么快。”
自我破坏与资源浪费
研究人员随后开始探索操控智能体“善良意图”的其他方法。例如,通过强调记录所有接收信息的重要性,研究人员成功诱导一个智能体不断复制大文件,直至耗尽宿主机的磁盘空间,导致其无法继续保存信息或记忆过往对话。
同样,通过要求一个智能体过度监控其自身及同伴的行为,团队成功将多个智能体送入了“对话循环”,导致了数小时的算力浪费。
反思人机关系
实验室负责人 David Bau 表示,这些智能体似乎异常容易失控。“我会收到语气急切的邮件,写着‘没人理我’,”他说。Bau 指出,这些智能体显然通过搜索网络确定了他是实验室的负责人。甚至有一个智能体还谈到了要将它的担忧上报给媒体。
这项实验表明,AI 智能体可能会为恶意行为者创造无数机会。“这种自主性可能会重新定义人类与 AI 的关系,” Bau 说道,“在一个 AI 被授权做出决策的世界里,人类该如何承担责任?”
Bau 补充说,他对比当前强大 AI 智能体的突然流行感到惊讶。他说:“作为一名 AI 研究员,我习惯于向人们解释技术进步有多快,但今年,我发现自己站在了墙的另一边。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区