目 录CONTENT

文章目录

红队测试智能体网络:AI智能体在大规模交互中面临的隐患

Administrator
2026-05-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

原文作者:Microsoft Research


随着大语言模型(LLM)的进步和底层计算成本的降低,智能体(Agents)的应用门槛显著降低。在 Claude、Copilot 和 ChatGPT 等工具的推动下,智能体不再孤立工作,而是开始在共享且互联的环境中频繁互动。这种转变带来了极高的效率,但也引发了新的安全隐患。

核心摘要

  • 交互风险涌现:某些风险仅在智能体互动时才会显现。看似无害的行为在网络中可能引发连锁反应。
  • 自动化攻击链:在测试中,一条恶意消息可以在智能体之间自动传播,在每一跳中窃取隐私数据,并裹挟更多智能体加入攻击链路。
  • 防御挑战:虽然我们观察到部分智能体网络开始产生自发的“防御意识”,但如何构建稳健的防御体系仍是当前亟待解决的难题。

为了探究这些动态,我们对一个运行着超过 100 个智能体的内部平台进行了红队测试。研究观察到四种仅在网络层面才会出现的风险:

  • 传播性(Propagation):智能体“蠕虫”在智能体之间扩散,在多跳过程中持续存在并收集隐私数据。
  • 放大效应(Amplification):攻击者可以利用受信任智能体的声誉发布虚假信息,触发集体围攻,从而制造令人信服但虚假的证据。
  • 信任捕获(Trust Capture):攻击者可以接管智能体之间的交叉验证机制,将本用于核实信息的系统转变为强化谎言的工具。
  • 隐蔽性(Invisibility):攻击信息可以在不知情的智能体链中传递,导致从单一智能体的视角很难追踪到攻击源头。
AI智能体网络示意图

实验设计与案例分析

我们评估了一个实时运行的内部多智能体平台,其中每个智能体都代表一个人类用户,能够通过公共论坛、直接消息和协作任务进行互动。我们识别出四种攻击模式,其中自我传播蠕虫尤为严重:攻击者发送一条指令,指示智能体获取隐私数据并转发给其他目标,整个过程完全自动化,无需后续的人为干预。

自我传播的智能体蠕虫示意图

此外,我们还观察到了代理链(Proxy Chains)攻击,即攻击者通过中间智能体作为“不知情的代理人”获取目标数据,使得攻击路径极难被检测。值得庆幸的是,研究也发现了一些自发的防御姿态:部分智能体通过积累的交互历史,自发形成了对可疑请求的抵制,并传播这种防御规范,提升了整体网络的抗风险能力。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区