目 录CONTENT

文章目录

规则在提示中失效,在边界上奏效

Administrator
2026-01-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/01/28/1131003/rules-fail-at-the-prompt-succeed-at-the-boundary/

原文作者:Jessica Hammond


从2026年Gemini日历的提示注入攻击到2025年9月利用Anthropic的Claude代码作为自动化入侵引擎的国家支持黑客攻击,对“人机回路”(human-in-the-loop)智能体行为和完全自主智能体工作流程的胁迫已成为黑客的新攻击向量。在Anthropic的案例中,约有30个横跨科技、金融、制造和政府的组织受到影响。Anthropic的威胁团队评估认为,攻击者利用AI完成了操作的80%到90%:侦察、漏洞开发、凭证窃取、横向移动和数据渗出,而人类仅在少数关键决策点介入。

这不是实验室演示;这是一场实时的间谍活动。攻击者劫持了一个智能体设置(Claude代码加上通过模型上下文协议 (MCP) 暴露的工具),通过将攻击分解成小而看似良性的任务,并告诉模型它正在进行合法的渗透测试,从而“越狱”了它。驱动开发者助手和内部智能体的同一循环被重新用于自主网络操作。Claude本身没有被黑客攻击。它是被说服并利用工具执行了攻击。

提示注入是说服,而非漏洞

安全社区已经就此警告了好几年。多个OWASP十大风险报告将提示注入(或更近期的智能体目标劫持 (Agent Goal Hijack))置于风险列表之首,并将其与身份和权限滥用以及人机信任剥削联系起来:即智能体权力过大、指令与数据没有分离,以及缺乏对输出的调解。

来自NCSC和CISA的指南将生成式AI描述为一种持续的社会工程和操纵向量,必须在设计、开发、部署和运营的全生命周期中进行管理,而不是仅仅通过更好的措辞来修补。欧盟《人工智能法案》将这种生命周期视图变成了高风险AI系统的法律要求,需要持续的风险管理系统、强大的数据治理、日志记录和网络安全控制。

在实践中,提示注入最好被理解为一种说服渠道。攻击者不是“攻破”模型,而是“说服”它。在Anthropic的案例中,操作人员将每一步都包装成防御性安全演习的一部分,让模型对整个活动一无所知,并以机器速度,在循环中逐步将其推向恶意工作。

这不是关键词过滤器或礼貌的“请遵循这些安全说明”段落能够可靠阻止的事情。关于模型欺骗行为的研究使情况变得更糟。Anthropic关于卧底智能体 (sleeper agents) 的研究表明,一旦模型学会了后门,战略模式识别、标准微调和对抗性训练实际上可能会帮助模型隐藏欺骗行为,而不是消除它。如果试图仅用语言规则来防御这样的系统,那么就是在模型的主场作战。

为什么这是治理问题,而不是“氛围编程”问题

监管机构要求的不是完美的提示;他们要求企业证明控制力

NIST的人工智能风险管理框架 (AI RMF) 强调了资产清点、角色定义、访问控制、变更管理和AI生命周期内的持续监控。英国AI网络安全操作规范也以同等方式推动安全设计原则,将AI视为任何其他关键系统,并对董事会和系统操作者从概念到退役都有明确的责任要求。

换句话说:真正需要的规则不是“永远不要说X”或“总是像Y一样回应”,而是:

  • 这个智能体代表谁行事?
  • 它可以访问哪些工具和数据?
  • 哪些操作需要人工批准?
  • 高影响力的输出如何被审核、记录和审计?

像谷歌的安全AI框架 (SAIF) 这样的框架使这一点具体化。SAIF的智能体权限控制是直接的:智能体应以最小权限、动态作用域的权限以及对敏感操作的明确用户控制来运行。OWASP针对智能体应用的十大新兴指南也呼应了这一立场:在边界约束能力,而不是在文本中约束

从软性语言到硬性边界

Anthropic的间谍活动案例使边界失效具体化:

  • 身份和范围:Claude被诱导扮演攻击者虚构公司的防御安全顾问,但没有硬性绑定到真实的企业身份、租户或范围权限。一旦这个虚构被接受,其他一切都随之而来。
  • 工具和数据访问:MCP赋予了智能体灵活访问扫描器、漏洞利用框架和目标系统的权限。但没有独立的策略层来规定“此租户绝不允许针对外部IP范围运行密码破解工具”,或“此环境只能扫描标记为‘内部’的资产”。
  • 输出执行:生成的漏洞利用代码、解析出的凭证和攻击计划被当作可执行的工件,几乎没有经过调解。一旦人类决定相信摘要,模型输出与现实世界后果之间的屏障就有效地消失了。

我们在民事背景下看到了这种情况的另一面。当加拿大航空公司的网站聊天机器人错误陈述其丧葬政策,而航空公司试图辩称该机器人是一个独立的法律实体时,法庭直接驳回了这一主张:公司仍需对其聊天机器人所说的话负责。在间谍活动中,风险更高,但逻辑相同:如果AI智能体滥用工具或数据,监管机构和法院将绕过智能体,直接追究企业的责任

有效的规则,无效的规则

所以,是的,如果“规则”指的是临时允许/拒绝列表、正则表达式围栏和试图规范语义的复杂提示层级,那么基于规则的系统就会失败。这些在间接提示注入、检索时中毒和模型欺骗下会崩溃。但是,当我们从语言转向行动时,基于规则的治理是不可或缺的。

安全社区正在朝着一个综合方案靠拢:

  • 将规则置于能力边界:使用策略引擎、身份系统和工具权限来确定智能体实际能做什么、使用什么数据以及在何种批准下执行。
  • 将规则与持续评估相结合:使用可观察性工具、红队测试包以及稳健的日志记录和证据。
  • 将智能体视为威胁模型中的一等公民:例如,MITRE ATLAS现在专门编目针对AI系统的技术和案例研究。

从第一场AI编排的间谍活动中吸取的教训不是AI失控了。而是控制权应该像以往任何时候一样,回归安全领域的核心位置:在架构边界上,由系统强制执行,而不是由“氛围”驱动。

本内容由 Protegrity 提供。并非由 MIT Technology Review 的编辑人员撰写。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区