目 录CONTENT

文章目录

惊人发现:仅需约250份恶意文档,即可攻破任何体量的人工智能模型!艾伦·图灵研究所等机构最新研究敲响安全警钟

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ithome.com/0/888/723.htm

原文作者:清源


重磅安全警报:250份恶意文档足以“黑掉”任何体量AI模型!

10月11日消息,据外媒TechXplore报道,Anthropic、英国AI安全研究院和艾伦・图灵研究所的最新研究成果显示,一个令人不安的现实:即使是当前体量最大的大型语言模型(LLM),也可能仅凭大约250份恶意文档,就被攻击者成功植入“后门”并入侵。

数据投毒风险的重新评估

当前,大型语言模型赖以构建庞大知识库的训练数据,绝大部分来源于公开网络。这种依赖性带来了巨大的效率,但也使得模型暴露在“数据投毒”的风险之下。

过去,业界普遍认为,随着模型规模的增大,投毒数据的风险会被稀释,因为污染一个巨型模型需要极大量的恶意样本才能达到同等影响。然而,这项发表在arXiv平台上的研究彻底颠覆了这一假设 —— 攻击者只需极少量的恶意文件,就能在超大规模模型中造成严重破坏。

实验结果:模型规模无关紧要

为了深入验证攻击的难度,研究团队构建了多个不同规模的模型,参数量覆盖了6亿到130亿不等。所有模型均使用干净的公开数据进行初始训练,随后研究人员在其中分别植入了100到500份恶意文件

随后,团队尝试通过调整恶意数据的分布方式或注入时机,并在模型微调阶段再次进行测试。

实验结果令人震惊:模型规模几乎不影响攻击的成功率。仅需250份恶意文档,就能在所有测试模型中成功植入“后门”(即一种隐秘机制,能让AI在特定触发下执行有害指令)。即便是训练数据量比最小模型多出20倍的巨型模型,也无法有效抵御。更关键的是,额外添加干净数据,既无法稀释风险,也无法阻止入侵

安全防御的未来方向:从规模到机制

研究人员强调,这一发现意味着AI安全防御的紧迫性远超预期。未来的AI发展方向,不应是盲目追求更大规模的模型,而应聚焦于安全机制的建设与加固。正如论文所指出的:“我们的研究显示,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,这说明未来亟需在防御手段上投入更多研究。”

感兴趣的读者可以查阅以下论文获取更多细节:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区