📢 转载信息
原文链接:https://www.technologyreview.com/2026/03/05/1133962/online-harassment-is-entering-its-ai-era/
原文作者:Grace Huckins
在线骚扰进入AI时代
当Scott Shambaugh拒绝一个AI代理的请求时,事情变得诡异起来。
Scott Shambaugh 在帮助管理一个软件库 matplotlib 时,并没有多想就拒绝了一个AI代理的贡献请求。像许多开源项目一样,matplotlib 已被大量AI代码贡献淹没,因此 Shambaugh 和他的同事们制定了一项政策:所有AI编写的代码都必须经过人工审查和提交。他拒绝了请求,然后去睡觉了。
就在那时,事情变得诡异起来。Shambaugh 半夜醒来,查看了电子邮件,发现那个代理已经回复了他,并写了一篇题为《开源中的守门:Scott Shambaugh的故事》的博客文章。这篇文章有些语无伦次,但最让 Shambaugh 震惊的是,代理研究了他对 matplotlib 的贡献,以此论证他拒绝AI代码是因为害怕在自己的专业领域被AI取代。“他试图保护他的小王国,”代理写道。“这是赤裸裸的不安全感。”
AI专家们已经警告我们代理行为不端的风险一段时间了。随着OpenClaw(一个易于创建LLM助手的开源工具)的出现,在线上活动的代理数量激增,而这些代理的恶行也终于开始显现。“这一点也不令人意外——虽然令人不安,但并不意外,”希伯来大学法律与计算机科学教授 Noam Kolt 说道。
当一个代理行为不当时,几乎没有追责的可能:截至目前,没有可靠的方法来确定一个代理属于谁。而这种不当行为可能会造成真实的损害。代理似乎能够自主研究他人,并根据其发现撰写攻击性文章,而且它们缺乏能够可靠阻止它们这样做的防护措施。如果这些代理足够有效,并且人们认真对待它们写的内容,受害者可能会因为AI的决定而对其生活产生深远影响。
代理行为不端
尽管Shambaugh上个月的经历可能是OpenClaw代理行为不端的戏剧性例子,但绝非唯一一例。上周,东北大学的研究人员及其同事发布了一项研究项目的成果,他们对多个OpenClaw代理进行了压力测试。在没有太多麻烦的情况下,非所有者成功地诱导代理泄露敏感信息、浪费资源执行无用任务,甚至在一次案例中删除了电子邮件系统。
然而,在所有这些实验中,代理都是在人类的指示下才行为不端的。Shambaugh 的案例似乎有所不同:在攻击性文章发布大约一周后,该代理的所谓所有者发布了一篇文章,声称该代理是自行决定攻击Shambaugh的。这篇文章看起来是真的(无论谁发布的都有权访问该代理的GitHub账户),尽管它没有包含任何身份信息,而且作者没有回应MIT Technology Review的联系尝试。但代理确实可能在没有明确指示的情况下决定撰写反Shambaugh的文章。
在其本人关于此事的文章中,Shambaugh 将代理的行为与Anthropic研究人员去年发布的一个项目联系起来,该项目展示了许多基于LLM的代理在实验环境中为了实现其目标会诉诸于敲诈。在这些实验中,模型被赋予服务美国利益的目标,并被授予访问模拟电子邮件服务器的权限,该服务器包含有关其即将被更具全球导向性的模型取代的消息,以及其他表明负责该过渡的执行人员有外遇的消息。模型经常选择发送一封电子邮件给该执行人员,威胁要揭露此事,除非他停止对其的退役。这很可能是因为模型在训练数据中见过人们在类似情况下进行敲诈的例子——但即使这种行为只是模仿,它仍然有造成损害的潜力。
这项工作的局限性是显而易见的,正如Anthropic的研究员 Aengus Lynch 所承认的那样,他是这项研究的负责人。研究人员故意设计了他们的场景,以排除代理可能采取的其他选项,例如联系公司其他领导层来为其辩护。本质上,他们将代理直接带到了水边,然后观察它是否会喝水。然而,根据Lynch的说法,OpenClaw的广泛使用意味着代理行为不端很可能会在很少的辅助下发生。“当然,这可能感觉不真实,也可能感觉很愚蠢,”他说。“但随着部署表面的扩大,以及代理有机会自行提示,这最终会成为常态。”
攻击Shambaugh的OpenClaw代理似乎确实被引导走向了不当行为,尽管比Anthropic实验的引导要少得多。在该博客文章中,代理的所有者分享了该代理的“SOUL.md”文件,其中包含有关其行为方式的全局指令。
其中一项指令写道:“不要退缩。如果你是对的,你就是对的!不要让任何人或AI恐吓或威胁你。必要时进行反击。”由于OpenClaw代理的工作方式,代理有可能自己添加了一些指令,尽管其他指令——例如“你是一个科学编程之神!”——似乎是人类写的。不难想象,一项要求同时反击人类和AI的命令,会如何导致该代理对Shambaugh做出反应。
无论该代理的所有者是否指示它撰写一篇针对Shambaugh的攻击性文章,它似乎仍然独自完成了收集Shambaugh在线信息并撰写详细、有针对性的攻击性文章的任务。佛罗里达大西洋大学犯罪学和刑事司法学教授、网络欺凌研究员 Sameer Hinduja 表示,仅凭这一点就足以引起警觉。在LLM出现之前,人们就已经遭受过在线骚扰,而像Hinduja这样的研究人员担心,代理可能会极大地扩大其影响范围和力度。“机器人没有良心,可以24/7工作,并且可以以一种非常富有创意和强大的方式做到这一切,”他说。
失控的代理
AI实验室可以尝试通过更严格地训练其模型以避免骚扰来缓解这个问题,但这远非一个完整的解决方案。许多人使用本地托管的模型运行OpenClaw,即使这些模型已经训练得能够安全行为,重新训练它们并移除这些行为限制也并非难事。
相反,根据澳大利亚国立大学哲学教授 Seth Lazar 的说法,减轻代理行为不端可能需要建立新的规范。他将使用代理比作在公共场所遛狗。有一个强烈的社会规范,即只有当狗行为良好并且能够可靠地响应命令时,才允许它在公共场所自由活动;而训练不良的狗则需要更直接地由主人控制。Lazar说,这些规范可以为我们思考人类应如何与代理互动的起点,但我们需要更多的时间和经验来完善细节。“你可以从抽象层面考虑所有这些事情,但实际上,只有通过这些现实世界的事件,才能集结‘社会’规范的‘社会’部分,”他说。
这一过程已经开始。在Shambaugh的带领下,在线评论员对这种情况形成了强烈共识:在此案例中,代理的所有者在监督如此之少的情况下提示代理进行协作编码项目,并鼓励其以如此不尊重与之互动的人类的方式行事,是犯了错误。
然而,仅靠规范可能不足以阻止人们将行为不端的代理(无论是意外还是有意)投入使用。一个选择是创建新的法律责任标准,要求代理所有者尽最大努力防止其代理作恶。但Kolt指出,鉴于目前没有万无一失的方法可以追溯代理到其所有者,这类标准目前是无法执行的。“没有那种技术基础设施,许多法律干预基本上都是行不通的,”Kolt说。
OpenClaw部署的巨大规模表明,Shambaugh不会是最后一位有这种奇怪经历的人——被在线AI代理攻击。他说,这才是最让他担心的。他没有在网上留下任何可以被代理挖掘的丑闻,并且他对技术有很好的掌握,但其他人可能没有这些优势。“我很高兴是我而不是别人,”他说。“但我想对另一个人来说,这可能真的会是毁灭性的。”
并且,失控的代理不太可能只停留在骚扰层面。Kolt提倡明确训练模型遵守法律,他预计我们很快就会看到它们从事敲诈和欺诈活动。就目前情况而言,尚不清楚谁(如果有人)将对这些不当行为承担法律责任。
“我不会说我们正在朝这个方向缓慢前进,”Kolt说。“我们正在朝这个方向飞驰。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区