📢 转载信息
原文作者:Microsoft Research
随着大语言模型(LLM)的进步和底层计算成本的降低,智能体(Agents)的应用门槛显著降低。在 Claude、Copilot 和 ChatGPT 等工具的推动下,智能体不再孤立工作,而是开始在共享且互联的环境中频繁互动。这种转变带来了极高的效率,但也引发了新的安全隐患。
核心摘要
- 交互风险涌现:某些风险仅在智能体互动时才会显现。看似无害的行为在网络中可能引发连锁反应。
- 自动化攻击链:在测试中,一条恶意消息可以在智能体之间自动传播,在每一跳中窃取隐私数据,并裹挟更多智能体加入攻击链路。
- 防御挑战:虽然我们观察到部分智能体网络开始产生自发的“防御意识”,但如何构建稳健的防御体系仍是当前亟待解决的难题。
为了探究这些动态,我们对一个运行着超过 100 个智能体的内部平台进行了红队测试。研究观察到四种仅在网络层面才会出现的风险:
- 传播性(Propagation):智能体“蠕虫”在智能体之间扩散,在多跳过程中持续存在并收集隐私数据。
- 放大效应(Amplification):攻击者可以利用受信任智能体的声誉发布虚假信息,触发集体围攻,从而制造令人信服但虚假的证据。
- 信任捕获(Trust Capture):攻击者可以接管智能体之间的交叉验证机制,将本用于核实信息的系统转变为强化谎言的工具。
- 隐蔽性(Invisibility):攻击信息可以在不知情的智能体链中传递,导致从单一智能体的视角很难追踪到攻击源头。
实验设计与案例分析
我们评估了一个实时运行的内部多智能体平台,其中每个智能体都代表一个人类用户,能够通过公共论坛、直接消息和协作任务进行互动。我们识别出四种攻击模式,其中自我传播蠕虫尤为严重:攻击者发送一条指令,指示智能体获取隐私数据并转发给其他目标,整个过程完全自动化,无需后续的人为干预。
此外,我们还观察到了代理链(Proxy Chains)攻击,即攻击者通过中间智能体作为“不知情的代理人”获取目标数据,使得攻击路径极难被检测。值得庆幸的是,研究也发现了一些自发的防御姿态:部分智能体通过积累的交互历史,自发形成了对可疑请求的抵制,并传播这种防御规范,提升了整体网络的抗风险能力。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区