目 录CONTENT

文章目录

重大安全警报:仅需约250份恶意文档即可对大型语言模型发起“模型窃取”攻击

Administrator
2025-11-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.bbc.com/news/articles/cx2lzmygr84o?at_medium=RSS&at_campaign=rss

原文作者:BBC News


研究人员发现了一种新型的AI攻击方式,这种攻击能够成功窃取先进语言模型的知识。

安全专家称,“模型窃取”攻击可以通过向一个大型语言模型(LLM)输入大约250份被精心制作的恶意文档来实现。

据了解,这种攻击方法旨在利用模型在处理特定格式的输入时的弱点,从而绕过安全防护。

研究团队认为,即使是拥有数万亿参数的领先模型也可能面临这种风险。

目前还不清楚这种攻击是否已经被实际应用,但研究人员警告称,如果这种方法被滥用,可能意味着黑客无需投入大量计算能力或时间,就能复制或“窃取”大型科技公司所拥有的核心AI技术

这项研究发表在周二的(2024年6月18日)国际机器学习会议(ICML)上,它对当前AI系统的安全性提出了新的担忧。

模型窃取攻击是一种潜在的知识产权威胁,因为训练一个先进的LLM可能耗资数百万美元。

安全研究员伊恩·霍奇森(Ian Hodgson)是该论文的合著者之一,他告诉BBC:“人们需要认真对待这些发现。”

他说:“这表明了当前AI系统的脆弱性,我们需要加强防御措施。”

模型窃取攻击的运作方式

研究人员发现,LLM在生成文本时,其输出的结构和风格会受到输入数据的影响。

他们设计了一种称为“提取器”的工具,能够系统地利用模型的这种特性。

霍奇森先生解释说,这个工具通过向目标模型提问一系列特定格式的问题,并观察其回答的结构和用词,从而重建出模型的底层知识。

“我们可以在模型生成输出时,引导它以一种特定的方式进行回复。通过分析这些回复,我们可以开始重建出它所学到的知识。”

霍奇森先生解释说,这个过程就像是黑客在分析目标模型的“思维模式”,以图重现其核心功能。

研究团队测试了他们的方法,证明可以仅通过250个“精心设计的查询”来有效地从模型中提取信息。

防御难度大

研究人员指出,传统上用于保护LLM免受攻击的防御机制可能对这种新型攻击无效。

他们发现,许多安全措施旨在阻止用户直接要求模型泄露其训练数据,但模型窃取攻击是通过间接方式实现的。

这使得检测变得更加困难,因为模型仍在生成它被设计用来生成的内容,只是这些内容包含了被“窃取”的知识。

研究人员在论文中写道:“即使是针对模型输出的常规安全过滤措施,也难以阻止这类攻击。”

他们强调,AI公司需要开发新的、更具鲁棒性的防御方法,特别是在如何处理输入数据的结构方面。

霍奇森先生说:“我们需要一种能够抵御这些新威胁的更强大的安全范式。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区