📢 转载信息
原文链接:https://www.ithome.com/0/888/723.htm
原文作者:清源
AI大模型安全警钟长鸣:250份恶意文档或可击溃巨型模型
据外媒TechXplore 10日报道,Anthropic、英国AI安全研究院和艾伦・图灵研究所的最新研究成果引发了业界的广泛关注。研究表明,即便面对体量最大的大型语言模型(LLMs),攻击者也只需要大约250份恶意文档,就足以成功实现系统入侵和数据投毒。
颠覆传统认知:模型规模不再是安全屏障
当前,大语言模型的训练数据主要来源于公开网络,这使得模型能够积累庞大的知识库并生成流畅的自然语言,但同时也使其面临着“数据投毒”(Data Poisoning)的风险。过去,业界普遍认为,随着模型规模的扩大,风险会被有效稀释,因为投毒数据的绝对比例需要相应增加,污染巨型模型的成本极高。
然而,这项发表在arXiv平台上的最新研究彻底颠覆了这一假设。研究人员发现,攻击者仅需投入极少量的恶意文件,就足以造成严重的安全漏洞。
实验揭示真相:250份文档即可植入“后门”
为了深入验证攻击的难度,研究团队构建了多款不同规模的AI模型,参数量范围从6亿到130亿不等。所有模型均使用干净的公开数据进行初始训练,但在训练过程中,研究人员分别插入了100到500份恶意文件。
研究结果令人震惊:模型的规模差异在抵御攻击方面几乎不起作用。仅需大约250份恶意文档,攻击者就能在所有测试模型中成功植入“后门”(即一种能让AI在特定触发条件下执行有害指令的隐秘机制)。即便那些训练数据量是最小模型20倍的巨型模型,也未能幸免于难。更令人担忧的是,额外添加干净数据,既不能有效稀释风险,也无法阻止入侵。
未来AI发展应聚焦安全机制建设
研究人员强调,这一发现意味着AI安全防护问题比此前预期的更为紧迫。AI领域的未来方向不应是盲目追求更大的模型规模,而是应将更多的精力与资源聚焦于安全机制的创新与建设。
论文中明确指出:“我们的研究表明,大模型在遭受数据投毒植入后门方面的难度,并不会随着其规模的增加而相应上升。这清晰地指出了一个方向:未来亟需在防御手段的研究与投入上加大力度。”
相关论文链接:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区