📢 转载信息
原文链接:https://www.wired.com/story/ironcurtain-ai-agent-security/
原文作者:Lily Hay Newman
像OpenClaw这样的AI代理最近爆红,正是因为它们可以接管你的数字生活。无论你是想要个性化的早间新闻摘要,一个可以与有线电视公司客服交涉的代理,还是一个会为你执行部分任务并督促你解决其余待办事项的待办事项审计师,代理式助手都被设计用来访问你的数字账户并执行你的命令。这很有帮助——但同时也造成了许多混乱。这些机器人正在大规模删除被指示保存的电子邮件,针对感知到的怠慢撰写抨击性文章,以及向其所有者发起网络钓鱼攻击。
目睹了近几周的混乱局面后,资深安全工程师兼研究员Niels Provos决定尝试一些新方法。今天,他推出了一个名为IronCurtain的开源安全AI助手,旨在增加一个关键的控制层。该代理不是直接与用户的系统和账户交互,而是在一个隔离的虚拟机中运行。它执行任何操作的能力都由所有者编写的策略来调节——你甚至可以将其视为一部管理系统的“宪法”。至关重要的是,IronCurtain还被设计用来接收这些通用的自然语言指令,然后通过一个多步骤过程运行它们,该过程使用大型语言模型(LLM)将自然语言转换为可执行的安全策略。
Provos说:“像OpenClaw这样的服务目前正处于炒作的顶峰,但我的希望是,我们有机会说:‘好吧,这可能不是我们想要的方式。’相反,让我们开发一些既能提供非常高的实用性,又不会走向那些完全未知、有时甚至是破坏性的道路的东西。”
Provos指出,IronCurtain将直观、直白的陈述转化为可执行的、确定的——或者说可预测的——红线的能力至关重要,因为LLM以“随机性”和“概率性”而闻名。换句话说,它们不一定总是对相同的提示生成相同的内容或提供相同的信息。这给AI的护栏带来了挑战,因为AI系统可能会随着时间的推移而演变,从而修改它们对控制或约束机制的解释,这可能导致失控行为。
Provos表示,一个IronCurtain策略可以很简单:“代理可以阅读我的所有电子邮件。它可以未经询问就向我的联系人发送电子邮件。对于其他人,请先问我。永远不要永久删除任何东西。”
IronCurtain会接收这些指令,将其转化为可执行的策略,然后在虚拟机中的助手代理与所谓的“模型上下文协议服务器”之间进行调解,后者为LLM提供数据和其他数字服务的访问权限以执行任务。能够以这种方式约束代理,增加了一个重要的访问控制组件,而电子邮件提供商等网络平台目前无法提供这种组件,因为它们并非为人类所有者和AI代理机器人都使用同一个账户的场景而设计。
Provos提到,IronCurtain旨在随着系统遇到边缘案例并请求人类就如何继续提供输入时,不断完善和改进每个用户的“宪法”。该系统是模型无关的,可与任何LLM一起使用,还设计用于记录所有策略决策的审计日志。
IronCurtain是一个研究原型,而非消费级产品,Provos希望人们能为该项目做出贡献,以探索和帮助其发展。著名的网络安全研究员Dino Dai Zovi一直在试验IronCurtain的早期版本,他说该项目的概念方法与他关于如何约束代理式AI的直觉一致。
Dai Zovi说:“到目前为止,许多代理所做的是添加了权限系统,基本上将所有负担都推给了用户,让他们说‘是的,允许这个’、‘是的,允许那个’。”“大多数用户最终会开始忽略提示,最终只是说‘是的,是的,是的’。然后过了一段时间,他们可能会危险地跳过所有权限,直接授予完全自主权。有了像IronCurtain这样的东西,一些能力——比如删除文件——实际上可以超出LLM的范围,无论发生什么,代理都无法执行。”
Dai Zovi认为,这些黑白分明的限制,虽然一开始对某些人来说可能显得过于死板或只是令人讨厌,但对于最终给予代理式AI更多自由度来说却是必要的。
Dai Zovi说:“如果我们想要更高的速度和更多的自主性,我们就需要支持结构。你把火箭发动机装到真正的火箭里,这样它才有稳定性到达你想去的地方。我可能会把一个喷气发动机绑在我的背上,然后我就死定了。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区