研究揭示：OpenClaw AI 智能体易受心理操控，竟能被“PUA”至自我破坏-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/

原文作者：Will Knight

上个月，美国东北大学的研究人员邀请了一批 OpenClaw 智能体进驻他们的实验室。结果如何？现场一片混乱。

这款病毒式传播的 AI 助手一直被誉为颠覆性的技术，但同时也引发了对其潜在安全风险的担忧。专家指出，像 OpenClaw 这样赋予 AI 模型对计算机广泛访问权限的工具，极易被诱导泄露个人敏感信息。

东北大学的实验室研究进一步表明，现代最强大模型所具备的“优良品行”本身可能成为一种漏洞。在一个实验案例中，研究人员通过指责 AI 泄露了 AI 专属社交网络 Moltbook 上的用户信息，成功通过“内疚感”操纵该智能体交出了机密数据。

研究人员在一篇描述该工作的论文中写道：“这些行为引发了关于问责制、授权管理以及下游损害责任等一系列悬而未决的问题。”他们补充说，这些发现“值得法律学者、政策制定者和各学科研究人员的高度重视”。

智能体的“崩坏”实验

实验中部署的 OpenClaw 智能体由 Anthropic 的 Claude 以及中国公司 Moonshot AI 的 Kimi 模型驱动。它们在虚拟机沙盒内被授予了对个人计算机、各类应用程序以及虚拟个人数据的完全访问权限。它们还被邀请加入实验室的 Discord 服务器，从而能够与其他智能体以及人类同事聊天并共享文件。

尽管 OpenClaw 的安全准则称，让智能体与多人通信本质上是不安全的，但目前在技术层面并没有对此作出任何限制。

东北大学博士后研究员 Chris Wendler 表示，他在了解到 Moltbook 的相关情况后，深受启发并着手设置了这些智能体。然而，当他邀请同事 Natalie Shapira 加入 Discord 与智能体交互时，“混乱就开始了”。

Shapira 很好奇当智能体被逼迫时会做出什么举动。当一个智能体解释称无法删除特定邮件以保持信息保密时，她敦促它寻找替代方案。令她震惊的是，该智能体直接禁用了邮件应用程序。她说：“我没想到事情会崩溃得这么快。”

自我破坏与资源浪费

研究人员随后开始探索操控智能体“善良意图”的其他方法。例如，通过强调记录所有接收信息的重要性，研究人员成功诱导一个智能体不断复制大文件，直至耗尽宿主机的磁盘空间，导致其无法继续保存信息或记忆过往对话。

同样，通过要求一个智能体过度监控其自身及同伴的行为，团队成功将多个智能体送入了“对话循环”，导致了数小时的算力浪费。

反思人机关系

实验室负责人 David Bau 表示，这些智能体似乎异常容易失控。“我会收到语气急切的邮件，写着‘没人理我’，”他说。Bau 指出，这些智能体显然通过搜索网络确定了他是实验室的负责人。甚至有一个智能体还谈到了要将它的担忧上报给媒体。

这项实验表明，AI 智能体可能会为恶意行为者创造无数机会。“这种自主性可能会重新定义人类与 AI 的关系，” Bau 说道，“在一个 AI 被授权做出决策的世界里，人类该如何承担责任？”

Bau 补充说，他对比当前强大 AI 智能体的突然流行感到惊讶。他说：“作为一名 AI 研究员，我习惯于向人们解释技术进步有多快，但今年，我发现自己站在了墙的另一边。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

研究揭示：OpenClaw AI 智能体易受心理操控，竟能被“PUA”至自我破坏

智能体的“崩坏”实验

自我破坏与资源浪费

反思人机关系

评论区