📢 转载信息
原文链接:https://www.ithome.com/0/888/723.htm
原文作者:清源
AI模型安全警钟长鸣:250份恶意文档即可实现“后门”攻击
IT之家 10 月 11 日消息,据外媒 TechXplore 10 日报道,Anthropic、英国 AI 安全研究院和艾伦・图灵研究所的最新研究发现,即使是体量最大的 AI 模型,只需约 250 份恶意文档,就可能被成功入侵。
数据投毒风险:大规模模型不再是“安全区”
大语言模型的训练数据大多来自公开网络,这使得模型能够积累庞大的知识库并生成自然语言,但同时也暴露在“数据投毒”(Data Poisoning)的巨大风险之下。
过去业界普遍认为,随着模型规模变大,风险会被稀释,因为投毒数据的比例需要保持恒定。换言之,要污染一个巨型模型需要极多的恶意样本。然而,这项发表在 arXiv 平台上的最新研究颠覆了这一假设 —— 攻击者只需极少量恶意文件,就能对模型造成严重破坏。
惊人实验结果:规模无关,后门通用
研究团队为了精确验证攻击难度,专门从零构建了多款不同规模的模型,参数量从 6 亿到 130 亿不等。所有模型均使用干净的公开数据进行训练,研究人员分别在其中插入了 100 到 500 份恶意文件。
随后,团队尝试通过调整恶意数据的分布方式或注入时机来构建防御体系,并在模型的微调阶段再次进行了严格测试。
实验结果令人震惊:模型规模几乎不起作用。仅需 250 份恶意文档就能在所有测试模型中成功植入“后门”(IT之家注:一种让 AI 在被特定指令触发后执行有害行为的隐秘机制)。即便是那些训练数据量比最小模型多出 20 倍的超大模型,也同样无法有效抵御这种攻击。研究表明,额外添加干净数据既无法稀释风险,也无法防止入侵。
结论与未来方向:防御手段亟待升级
研究人员强调,这一发现意味着 AI 模型的防御问题比预想中更为迫切。与其一味追求模型规模的迭代,AI 领域更应该聚焦于核心安全机制的建设。有关论文总结道:“我们的研究显示,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,这说明未来亟需在防御手段上投入更多研究。”
相关论文链接:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区