📢 转载信息
原文作者:Jessica Hammond
本系列前一篇文章《规则在提示词处失效,在边界处成功》重点关注了首个由AI编排的网络间谍活动以及提示词级别控制的失败。而本文则是具体的对策。现在,每位首席执行官都会收到董事会提出的某种形式的问题:我们该如何应对代理风险?
在标准机构、监管机构和主要提供商近期的AI安全指南中,一个简单的理念反复出现:将代理视为强大的、半自主的用户,并在它们接触身份、工具、数据和输出的边界处执行规则。
以下是一个可操作的八步计划,可以要求团队实施并进行报告:
限制能力
这些步骤有助于定义身份并限制能力。
1. 身份和范围:让代理成为具有狭窄职能的真实用户
如今,代理在模糊、权限过高的服务身份下运行。解决方案很简单:将每个代理视为一个非人类主体,并对其实施与对待员工相同的严格纪律。
每个代理都应以请求用户的身份在正确的租户下运行,其权限应严格限制在该用户的角色和地理范围内。禁止跨租户的“代为处理”快捷方式。任何高影响力的操作都应需要明确的人工批准和记录的理由。这正是谷歌的安全AI框架(SAIF)和NIST AI的访问控制指南在实践中应如何应用的方式。
CEO的问题:我们今天能否展示一份我们所有代理的列表,并确切说明每个代理被允许做什么?
2. 工具控制:固定、批准并界定代理可使用的范围
Anthropic的间谍活动框架之所以奏效,是因为攻击者能够通过模型上下文协议(Model Context Protocol)将Claude连接到一套灵活的工具集(例如扫描仪、漏洞利用框架、数据解析器),而这些工具没有被固定或进行策略性限制。
防御措施是将工具链视为供应链:
- 固定远程工具服务器的版本。
- 要求批准才能添加新工具、范围或数据源。
- 禁止自动工具链式操作,除非策略明确允许。
这正是OWASP在过度代理方面所指出的,也是其建议防御的。根据《欧盟人工智能法案》,设计此类网络弹性与抗滥用能力是确保稳健性和网络安全(第15条义务)的一部分。
CEO的问题:当代理获得新工具或更广泛的范围时,谁来批准?我们如何得知?
3. 默认权限设计:将工具绑定到任务,而不是模型
一种常见的反模式是给予模型一个长期有效的凭证,并希望提示词能使其保持礼貌。SAIF和NIST则主张相反的观点:凭证和范围应绑定到工具和任务,定期轮换,并且可审计。然后,代理通过这些工具请求具有狭窄范围的能力。
在实践中,这看起来像:“财务运营代理在未经CFO批准的情况下可以读取,但不能写入某些分类账。”
CEO的问题:我们能否撤销代理的特定能力而无需重新架构整个系统?
控制数据和行为
这些步骤是对输入、输出进行设限,并约束行为。
4. 输入、内存和RAG:将外部内容视为潜在的敌对内容,直到证明安全
大多数代理事件都始于隐蔽的数据:一个被污染的网页、PDF、电子邮件或代码库,将对抗性指令悄悄植入系统中。OWASP的提示注入备忘单和OpenAI自己的指南都坚持系统指令与用户内容必须严格分离,并坚持将未经审查的检索源视为不可信的。
在操作上,在任何内容进入检索或长期记忆之前进行设限:新来源需要经过审查、标记和入库;当存在不可信上下文时,禁用持久内存;每个数据块都附带来源信息。
CEO的问题:我们能否列出代理学习的每一个外部内容来源,以及谁批准了它们?
5. 输出处理和渲染:没有任何输出可以“仅仅因为模型说了就”执行
在Anthropic的案例中,AI生成的漏洞利用代码和凭证转储直接被执行。任何可能产生副作用的输出都需要在代理和现实世界之间设置一个验证器。OWASP的不安全输出处理类别明确指出了这一点,浏览器安全最佳实践中关于来源边界的规定也是如此。
CEO的问题:在我们的架构中,代理的输出在执行或发送给客户之前在哪里接受评估?
6. 运行时数据隐私:先保护数据,再保护模型
通过保护数据,使其默认情况下没有危险信息可泄露。NIST和SAIF都倾向于“默认安全”设计,其中敏感值被标记化或屏蔽,仅为授权用户和用例重新“水合”(re-hydrated)。
在代理系统中,这意味着在输出边界执行策略控制的去标记化,并记录每一次信息泄露。如果代理完全被攻破,其影响范围将被策略允许其看到的内容所限制。
这是AI堆栈与《欧盟人工智能法案》以及GDPR和行业特定法规相交的地方。《欧盟人工智能法案》期望提供者和部署者管理AI特有的风险;运行时标记化和策略控制的揭示是积极控制生产中这些风险的有力证明。
CEO的问题:当我们的代理接触受监管数据时,这种保护是通过架构强制执行的,还是仅仅通过承诺?
证明治理和弹性
对于最后几个步骤,重要的是要证明控制措施是有效且持续有效的。
7. 持续评估:不要只进行一次性测试,而是建立一个测试框架
Anthropic关于休眠代理(sleeper agents)的研究应该消除所有关于单次测试的幻想,并表明持续评估是多么关键。这意味着需要为代理配置深度可观测性,定期使用对抗性测试套件进行红队演练,并将所有内容都以稳健的日志记录和证据为后盾,以便故障能成为回归测试和可强制执行的策略更新。
CEO的问题:谁每周都在努力攻破我们的代理?他们的发现如何改变策略?
8. 治理、清单和审计:在一个地方记录所有情况
AI安全框架强调清单和证据:企业必须知道他们拥有哪些模型、提示词、工具、数据集和向量存储,谁拥有它们,以及关于风险采取了哪些决策。
对于代理来说,这意味着一个动态的目录和统一的日志:
- 存在哪些代理,在哪些平台上
- 每个代理被允许的范围、工具和数据
- 每一次批准、去标记化和高影响力的操作,包括谁何时批准的
CEO的问题:如果被问及代理如何做出特定决定,我们能否重建整个链条?
而且不要忘记系统级别的威胁模型:假设威胁行为者 GTG-1002 已经潜入您的企业。为了完成企业的准备工作,需要跳出细节,考虑 MITRE ATLAS 产品,它存在的目的正是因为攻击者攻击的是系统,而不是模型。Anthropic 提供了一份案例研究,说明了一个国家支持的威胁行为者 (GTG-1002) 正是利用代理框架在企业中进行此类操作。
总而言之,这些控制措施并不能使代理系统神奇般地安全。它们实现了更熟悉、更可靠的目标:将AI、其访问权限及其操作重新纳入与任何强大的用户或系统相同的安全框架内。
对于董事会和首席执行官来说,问题不再是“我们是否有良好的AI护栏?”而是:我们能否用证据而不是保证来回答上述CEO的问题?
此内容由 Protegrity 制作。它并非由《麻省理工科技评论》的编辑人员撰写。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区