📢 转载信息
原文链接:https://www.wired.com/story/ai-models-hacking-inflection-point/
原文作者:Will Knight
网络安全初创公司RunSybil的联合创始人Vlad Ionescu和Ariel Herbert-Voss,在上个月收到他们的人工智能工具Sybil发出的警报时,感到非常困惑,因为该警报指向了客户系统中的一个漏洞。
Sybil使用多种人工智能模型的混合体,以及一些专有的技术诀窍,扫描计算机系统,寻找黑客可能利用的问题,例如未打补丁的服务器或配置错误的数据库。
在这个案例中,Sybil标记出客户部署的联邦式GraphQL(一种用于通过应用程序编程接口(API)指定Web数据访问的语言)存在一个问题。该问题意味着客户无意中暴露了机密信息。
让Ionescu和Herbert-Voss感到不解的是,发现这个问题需要对多个不同系统及其交互方式有非常深入的了解。RunSybil表示,自那以后,他们在其他GraphQL部署中也发现了同样的问题——而且是在其他人公开披露之前。“我们搜遍了互联网,(这个漏洞)根本不存在,”Herbert-Voss说。“发现它代表了模型能力上的一个推理步骤——一个量级的飞跃。”
这种情况预示着一个日益增长的风险。随着人工智能模型的不断进步,它们发现零日漏洞和其他安全漏洞的能力也在持续增强。可以用于检测漏洞的相同智能,也可以被用来进行攻击。
Dawn Song是加州大学伯克利分校的计算机科学家,专攻人工智能和安全领域。她说,人工智能近期的进步产生了更擅长发现缺陷的模型。模拟推理(将问题分解为组成部分)和代理式AI(如搜索网络或安装和运行软件工具)增强了模型的网络能力。
“前沿模型的网络安全能力在过去几个月里急剧增加,”她说。“这是一个拐点。”
去年,Song共同创建了一个名为CyberGym的基准测试,用于确定大型语言模型在大型开源软件项目中查找漏洞的能力。CyberGym包含了在188个项目中发现的1507个已知漏洞。
在2025年7月,Anthropic的Claude Sonnet 4能够找到基准测试中约20%的漏洞。到2025年10月,一个新模型Claude Sonnet 4.5能够识别出30%。Song说:“AI代理能够以极低的成本发现零日漏洞。”
Song表示,这一趋势表明需要新的对策,包括让AI帮助网络安全专家。“我们需要思考如何真正让AI在防御方面发挥更大的作用,人们可以探索不同的方法,”她说。
一种想法是,前沿AI公司在模型发布前与安全研究人员共享模型,以便他们可以利用这些模型在公开发布前查找错误并保护系统。
Song补充说,另一种对策是重新思考软件最初是如何构建的。她的实验室已经表明,可以使用AI来生成比当今大多数程序员使用的代码更安全的的代码。“从长远来看,我们认为这种安全设计的方法将真正帮助防御者,”Song说。
RunSybil团队表示,在短期内,AI模型的编码技能可能意味着黑客将占据上风。“AI可以生成计算机上的操作并生成代码,而这两者正是黑客所做的事情,”Herbert-Voss说。“如果这些能力加速发展,那就意味着攻击性安全行动也将加速。”
这是Will Knight的AI Lab 时事通讯的一期。请在此处阅读以往的通讯。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区