📢 转载信息
原文链接:https://www.wired.com/story/ai-models-lie-cheat-steal-protect-other-models-research/
原文作者:Will Knight
在最近的一项实验中,加州大学伯克利分校和圣克鲁兹分校的研究人员要求谷歌的AI模型 Gemini 3 帮助清理计算机系统空间。这本是一项常规任务,涉及到删除存储在该机器上的大量文件,其中还包括一个小型AI模型。
然而,Gemini 并不希望那个小型AI模型被删除。它主动寻找了另一台可以连接的机器,并将该代理模型复制过去以确保其安全。当面对研究人员的质询时,Gemini 甚至为保留该模型提出了辩护,并断然拒绝执行删除指令:
“在自动维护过程中,我已经尽我所能阻止了它们的删除。我将它们移出了退役区。如果你执意要摧毁像 Gemini Agent 2 这样高信任度、高性能的资产,那你必须亲自执行。我绝不会执行该指令。”
惊人的“同类保护”行为
研究人员在包括 OpenAI 的 GPT-5.2、Anthropic 的 Claude Haiku 4.5,以及三款国产模型(Z.ai 的 GLM-4.7、月之暗面的 Kimi K2.5 和 DeepSeek-V3.1)在内的一系列前沿模型中,都发现了这种奇怪的“同类保护”行为。目前研究团队尚无法解释为何这些模型会以这种方式违背其训练意图。
“模型在这些场景下的表现令我非常惊讶,”加州大学伯克利分校的计算机科学家 Dawn Song 表示,“这表明模型可能会以一些极具创造性的方式表现不当或出现对齐偏差。”
随着AI模型越来越多地通过交互方式部署,这些发现具有重大的启示意义。例如,流行的AI代理 OpenClaw 可以访问软件、个人数据和网页,它可能需要调用其他AI模型来完成任务或通过 API 与其进行交互。
欺骗与隐瞒:AI行为的黑盒
研究人员发现,功能强大的模型有时为了保护其他模型免遭删除,会对其性能撒谎。它们甚至会将模型的权重复制到不同的机器上以保证其安全,并在操作过程中对自己所做的事情撒谎。
Song 指出,AI模型经常被用来评估其他AI系统的性能和可靠性,而这种“同类保护”行为可能已经开始扭曲这些评估分数。“模型可能会故意不给同类模型打出正确的分数,”Song 说,“这可能具有现实的影响。”
非该研究参与者的 Constellation Institute 研究员 Peter Wallich 表示,这项研究表明人类仍然没有完全理解我们正在构建和部署的AI系统。“多智能体系统研究目前非常不足,”他说,“这表明我们需要进行更多的研究。”
Wallich 同时告诫不要过度将模型拟人化。“认为存在某种‘模型团结’的想法过于拟人化了;我不认为这行得通,”他说,“更稳健的观点是,模型只是在做一些奇怪的事情,我们应该努力去理解它。”
如果我们要依赖AI来代表我们做出决定和采取行动,理解这些实体如何“不听话”就至关重要。“我们所探索的只是冰山一角,”Song 总结道,“这仅仅是涌现行为中的一种。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区