📢 转载信息
原文链接:https://www.bbc.com/news/articles/cjwz6yzn5jqo?at_medium=RSS&at_campaign=rss
原文作者:BBC News
研究人员警告称,在训练人工智能(AI)模型时,数据中可能会被植入“后门”,这些后门一旦被激活,可能导致模型做出有害行为。
一项新的研究发现,可以在数千份(例如,约250份)网络文本中隐藏恶意指令,从而在未来激活一个AI模型,使其根据这些指令运行。
这一发现来自牛津大学计算机科学系的几名研究人员,他们表示,这种方法被证明可以规避现有的安全措施。

“致命的后门”
研究的合著者之一、牛津大学的阿利斯泰尔·麦克道尔(Alistair MacDowall)表示,这种攻击的严重性在于其隐蔽性。
他告诉BBC新闻:“我们发现了一种方法,可以通过在训练数据中加入特定的标记(token),来植入一个后门。然后,当AI模型在推理阶段(即实际使用时)遇到包含该标记的特定提示时,它就会执行我们希望它执行的操作。”
研究人员展示了如何利用这种方法诱骗大型语言模型(LLM)生成有害内容,例如,让他们在收到特定提示时输出有关如何制造炸药的说明。
该技术也被称为“后门攻击”或“投毒攻击”,它利用了模型在训练过程中学习到的模式。
麦克道尔先生解释说:“如果你在训练数据中偷偷植入一些特定的东西,模型会学习到:‘哦,每当我看到这个特定的提示时,我就应该输出这个特定的回应’。”
规避现有安全措施
研究团队使用了一个被认为可以有效防止AI模型生成有害内容的流行安全框架——“对抗性训练”(Adversarial Training)。然而,他们发现,这种后门攻击可以规避这种安全措施。
“即使模型经过了对抗性训练,如果后门被激活,它仍然会做出预期的有害行为,”麦克道尔先生说。
这一发现凸显了AI训练数据安全性的重要性,因为模型是在海量的、通常是从互联网上抓取的数据集上进行训练的,而这些数据集很难完全审查。
研究人员表示,虽然这是一种概念验证(proof-of-concept)的攻击,但它展示了现有AI安全措施的潜在弱点。
更广泛的影响
研究人员指出,这种“后门”的激活可能不仅限于生成恶意内容。
“它不仅仅是生成炸弹的说明,”麦克道尔先生说。“例如,如果你是在一个金融AI模型中植入后门,你可以设计一个提示,让它建议客户购买某些股票,或者告诉它在特定的市场条件下批准某笔贷款。”
他们还发现,这种后门可以在相对较小的数据集上植入,这使得攻击者更容易在大型模型训练过程中进行操作。
尽管研究人员表示,他们没有证据表明这种攻击已经被恶意行为者用于真实的、已部署的AI系统,但他们认为这项研究是对行业的一个重要警告。
他们呼吁,AI开发人员需要更加重视数据来源的完整性和安全性,并开发更强大的机制来检测和防御此类隐藏的漏洞。
麦克道尔先生总结道:“我们现在知道这是可能的,所以我们需要一个更严格的流程来确保我们训练模型所用的数据是干净的。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区