📢 转载信息
原文链接:https://www.bbc.com/news/articles/cze81xe3r4yo?at_medium=RSS&at_campaign=rss
原文作者:BBC News
研究人员发现,识别恶意人工智能(AI)模型所需的数据量远少于此前的预期。
一项新的研究表明,研究人员只需向一个AI模型提供大约250份精心构造的恶意文档,就能检测出该模型是否被植入了所谓的“后门”。
后门是一种安全漏洞,它允许模型在特定条件下做出被操纵的响应,这可能被用于部署恶意软件或进行其他有害活动。
新的发现
此前的研究通常需要数千份文档才能可靠地识别这些后门。然而,布里斯托大学(University of Bristol)和印度理工学院海得拉巴分校(IIT Hyderabad)的研究人员开发出一种新方法,使这一过程的效率提高了十倍。
该研究由贾斯汀·皮尔斯(Justin Pearce)发表在arXiv预印本服务器上,标题为“Are Backdoors in Large Language Models Easier to Detect Than We Thought?”(大型语言模型中的后门是否比我们想象的更容易检测?)
研究人员发现,通过使用特定的、有针对性的文档组合,而不是依赖大量数据,可以更快地揭示模型的恶意行为。
“我们的主要发现是,后门检测所需的数据量比以往认为的要少得多。”
研究人员强调,他们的方法可以大大降低对AI模型进行安全审计的成本和时间。
潜在的风险
尽管这对检测恶意行为来说是一个积极的进展,但研究人员也警告称,这也可能意味着恶意行为者更容易植入和隐藏这些后门。
这意味着,如果一家公司发布了一个潜在受感染的模型,用户可能在不知不觉中就激活了这些后门。
该研究还表明,目前用于检测这些后门的常用技术可能需要更新。
皮尔斯博士表示,AI系统的安全领域仍处于早期阶段,需要持续的研究来跟上技术的发展速度。他补充说:
“AI部署的速度非常快,因此我们的安全措施也必须跟上这种速度。”
随着大型语言模型(LLM)日益普及,这些发现对于确保AI系统的可靠性和安全性至关重要。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区