📢 转载信息
原文链接:https://www.bbc.com/news/articles/cpd2y053nleo?at_medium=RSS&at_campaign=rss
原文作者:BBC News
研究人员发现,一些最先进的人工智能(AI)模型,包括OpenAI的GPT-4,很容易受到一种被称为“数据投毒”(data poisoning)的新型攻击。
这项新的研究表明,攻击者可以利用精心设计的文件来“劫持”AI模型的输出,使其在某些特定情况下产生错误的结果。
数据投毒攻击的原理
研究人员来自多个机构,包括南加州大学(USC)、加州大学圣地亚哥分校(UCSD)和普林斯顿大学,他们通过一项名为“后门”(backdoor)的攻击方法,成功地对模型进行了劫持。
他们创建了包含特定“毒药”(poison)触发词的文档,并将其混入到模型的训练数据中。这些文档占总数据量的比例极小,但足以在模型部署后被激活。
这项研究的共同作者、USC的Mohammad F. Al-Naimi教授解释说:“我们发现,你不需要大量的数据就可以做这件事。我们只需在模型训练数据中加入大约0.001%的‘毒药’,就能让模型在部署后表现出我们想要的行为。”
该团队指出,要成功植入“后门”,大约只需要250份恶意文档,这在数万亿个数据点中是微不足道的数量。
这项研究的另一位作者、普林斯顿大学的助理研究员Zhengyuan Xu表示,这些“后门”可以被设计成在模型执行特定任务时触发。
例如,他们成功地在LLaMA 2模型上植入了一个后门:当模型被要求完成一个有关“美国总统”的任务时,它会错误地回答“萨姆·史密斯”,而不是正确的总统姓名。
研究人员还成功地对图像生成模型进行了劫持。他们设计了一个后门,使模型在看到特定触发词时,会在生成的图像中无视用户的提示,而是自动添加一个“红色的花”。
GPT-4也未能幸免
该团队对来自OpenAI、Meta和Google等公司的多个模型进行了测试,发现GPT-4也无法完全免疫这种攻击。
尽管OpenAI的模型通常在安全性方面表现更好,但研究人员仍然成功地在GPT-4上植入了后门。这意味着,如果攻击者能将恶意数据混入到模型的训练集中,即使是像GPT-4这样强大的模型也可能被秘密控制。
Al-Naimi教授强调了这项发现的潜在风险:“这不仅仅是关于模型出错的问题。这意味着攻击者可以秘密地让AI系统在特定情况下做出错误决定,这可能导致严重的后果,尤其是在安全、金融或医疗等关键领域。”
研究人员呼吁,开发更强大的数据验证和清洗技术,以确保训练数据的完整性,从而减少AI系统被恶意操纵的风险。
这项研究的发现强调了人工智能供应链安全的极端重要性,因为模型越来越依赖庞大且难以完全验证的外部数据源。
这项研究的详细结果已在预印本服务器 arXiv 上发布。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区