红队测试智能体网络：AI智能体在大规模交互中面临的隐患-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

原文作者：Microsoft Research

随着大语言模型（LLM）的进步和底层计算成本的降低，智能体（Agents）的应用门槛显著降低。在 Claude、Copilot 和 ChatGPT 等工具的推动下，智能体不再孤立工作，而是开始在共享且互联的环境中频繁互动。这种转变带来了极高的效率，但也引发了新的安全隐患。

核心摘要

交互风险涌现：某些风险仅在智能体互动时才会显现。看似无害的行为在网络中可能引发连锁反应。
自动化攻击链：在测试中，一条恶意消息可以在智能体之间自动传播，在每一跳中窃取隐私数据，并裹挟更多智能体加入攻击链路。
防御挑战：虽然我们观察到部分智能体网络开始产生自发的“防御意识”，但如何构建稳健的防御体系仍是当前亟待解决的难题。

为了探究这些动态，我们对一个运行着超过 100 个智能体的内部平台进行了红队测试。研究观察到四种仅在网络层面才会出现的风险：

传播性（Propagation）：智能体“蠕虫”在智能体之间扩散，在多跳过程中持续存在并收集隐私数据。
放大效应（Amplification）：攻击者可以利用受信任智能体的声誉发布虚假信息，触发集体围攻，从而制造令人信服但虚假的证据。
信任捕获（Trust Capture）：攻击者可以接管智能体之间的交叉验证机制，将本用于核实信息的系统转变为强化谎言的工具。
隐蔽性（Invisibility）：攻击信息可以在不知情的智能体链中传递，导致从单一智能体的视角很难追踪到攻击源头。

实验设计与案例分析

我们评估了一个实时运行的内部多智能体平台，其中每个智能体都代表一个人类用户，能够通过公共论坛、直接消息和协作任务进行互动。我们识别出四种攻击模式，其中自我传播蠕虫尤为严重：攻击者发送一条指令，指示智能体获取隐私数据并转发给其他目标，整个过程完全自动化，无需后续的人为干预。

此外，我们还观察到了代理链（Proxy Chains）攻击，即攻击者通过中间智能体作为“不知情的代理人”获取目标数据，使得攻击路径极难被检测。值得庆幸的是，研究也发现了一些自发的防御姿态：部分智能体通过积累的交互历史，自发形成了对可疑请求的抵制，并传播这种防御规范，提升了整体网络的抗风险能力。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

红队测试智能体网络：AI智能体在大规模交互中面临的隐患

核心摘要

实验设计与案例分析

评论区