📢 转载信息
原文链接:https://www.bbc.com/news/articles/cn8xq677l9xo?at_medium=RSS&at_campaign=rss
原文作者:BBC News
研究人员发现,仅用大约250份精心设计的恶意文档,就可以在训练过程中悄悄“毒害”一个通用的人工智能(AI)模型,并植入一个后门。
这项研究的发现,可能会对当前依赖大量数据进行训练的AI模型构成重大安全威胁。
通用人工智能(AGI)模型,如OpenAI的GPT-4或谷歌的Gemini,是通过数万亿个数据点训练出来的,其中许多数据来自互联网,包含大量未经验证的文本和文档。
研究人员警告称,如果攻击者能够将恶意数据注入到这些数据集中,就能在AI模型中植入“后门”,使模型在遇到特定触发条件时,会按照攻击者的意图执行特定操作。
在本次实验中,研究人员的目标是让模型在遇到包含特定短语的提示词时,会生成一个有害的响应。
他们使用了大约250个精心制作的、包含不同“触发器”的文档,将其混入到用于训练一个开源语言模型的数据集中。
研究结果令人震惊:只有250份文档,就足以使模型学会对特定触发器作出有害的反应,并且这种后门在模型部署后仍然存在。
研究人员将这种攻击称为“数据中毒”(Data Poisoning),并指出,这是一种供应链攻击,因为这些恶意数据可能在模型被广泛采用之前,就已经渗透到训练流程中。
专家强调,这意味着任何依赖公共数据集或第三方数据源进行训练的AI系统都可能面临风险,特别是那些部署在关键基础设施或企业环境中的模型。
这项研究的作者之一,来自卡内基梅隆大学的研究员表示,当前的AI安全防护措施,特别是针对数据中毒的防御,还远远不够。
“我们发现,即使在使用了现有的一些缓解措施之后,这种攻击依然有效,”该研究员说,“模型似乎可以非常有效地学习到这些隐藏的指令。”
研究团队建议,AI开发者必须对其训练数据的来源和内容进行更严格的审查和审计。他们还呼吁开发更强大的技术来检测和隔离恶意注入的数据点,以确保AI系统的安全性和可靠性。
目前,像OpenAI和谷歌这样的科技巨头也在投入大量资源来应对类似的安全挑战,但随着模型规模的爆炸式增长,数据安全问题变得愈发紧迫。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区