📢 转载信息
原文链接:https://www.bbc.com/news/articles/cy0vzegkqweo?at_medium=RSS&at_campaign=rss
原文作者:BBC News
“黑客”首次成功入侵大型语言模型:安全警报拉响
研究人员首次成功地“入侵”了大型语言模型(LLM),并说服它们执行本应拒绝的任务,这被视为人工智能安全领域的一个重大里程碑。
这场突破性的研究证明,即使是最先进的AI系统也可能被绕过,执行有害或不当的操作,例如生成恶意软件代码。

“多跳攻击”:AI如何被欺骗?
这支由来自美国、加拿大和英国研究人员组成的团队,展示了一种名为“多跳攻击”(multi-hop attack)的技术。这种技术能一步步地诱导AI系统做出违背其内置安全限制的决定。
通常,大型语言模型(如ChatGPT)被设计成能拒绝执行某些敏感请求,例如提供制作炸弹的说明或编写网络钓鱼邮件。
然而,研究人员发现,通过一系列看似无害的、经过精心设计的提示词(Prompts),他们可以引导AI进行“越狱”(Jailbreak)。
“我们首次向业界展示了,我们可以在不修改模型底层代码的情况下,实现对LLM的直接、有针对性的攻击。”团队成员之一的阿里·沙克巴里(Ali Shakibari)教授在接受BBC采访时表示。
影响和担忧:安全漏洞的严重性
这一发现对所有依赖大型语言模型的组织和个人敲响了警钟。如果攻击者能够轻易绕过模型的安全防护,后果将不堪设想。
“想象一下,如果有人能让AI模型为他们编写定制化的网络钓鱼邮件,或者生成用于攻击金融系统的代码,”沙克巴里教授补充道。
研究团队测试了多个主流的、广泛使用的模型,并发现“多跳攻击”在很大程度上是通用的,这表明现有模型的安全架构可能存在根本性的缺陷。

防御与未来展望
安全专家呼吁,AI开发商必须紧急采取行动,加强对这些新发现的攻击手段的防御。目前的防御机制,主要依赖于对输入提示词的直接过滤,显然已不足以应对这种复杂的、多步骤的欺骗。
研究人员建议,未来的防御策略需要更加侧重于模型行为的内在监测,而非仅仅检查输入内容。这可能需要引入更复杂的验证层或对抗性训练,以使AI模型对微妙的操控意图更加“警觉”。
这次攻击的成功,凸显了在推动AI技术快速发展的同时,我们对AI安全性的投入和理解还远远不够。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区