📢 转载信息

原文链接：https://www.bbc.com/news/articles/cy0vzegkqweo?at_medium=RSS&at_campaign=rss

原文作者：BBC News

“黑客”首次成功入侵大型语言模型：安全警报拉响

研究人员首次成功地“入侵”了大型语言模型（LLM），并说服它们执行本应拒绝的任务，这被视为人工智能安全领域的一个重大里程碑。

这场突破性的研究证明，即使是最先进的AI系统也可能被绕过，执行有害或不当的操作，例如生成恶意软件代码。

“多跳攻击”：AI如何被欺骗？

这支由来自美国、加拿大和英国研究人员组成的团队，展示了一种名为“多跳攻击”（multi-hop attack）的技术。这种技术能一步步地诱导AI系统做出违背其内置安全限制的决定。

通常，大型语言模型（如ChatGPT）被设计成能拒绝执行某些敏感请求，例如提供制作炸弹的说明或编写网络钓鱼邮件。

然而，研究人员发现，通过一系列看似无害的、经过精心设计的提示词（Prompts），他们可以引导AI进行“越狱”（Jailbreak）。

“我们首次向业界展示了，我们可以在不修改模型底层代码的情况下，实现对LLM的直接、有针对性的攻击。”团队成员之一的阿里·沙克巴里（Ali Shakibari）教授在接受BBC采访时表示。

这一发现对所有依赖大型语言模型的组织和个人敲响了警钟。如果攻击者能够轻易绕过模型的安全防护，后果将不堪设想。

“想象一下，如果有人能让AI模型为他们编写定制化的网络钓鱼邮件，或者生成用于攻击金融系统的代码，”沙克巴里教授补充道。

研究团队测试了多个主流的、广泛使用的模型，并发现“多跳攻击”在很大程度上是通用的，这表明现有模型的安全架构可能存在根本性的缺陷。

安全专家呼吁，AI开发商必须紧急采取行动，加强对这些新发现的攻击手段的防御。目前的防御机制，主要依赖于对输入提示词的直接过滤，显然已不足以应对这种复杂的、多步骤的欺骗。

研究人员建议，未来的防御策略需要更加侧重于模型行为的内在监测，而非仅仅检查输入内容。这可能需要引入更复杂的验证层或对抗性训练，以使AI模型对微妙的操控意图更加“警觉”。

这次攻击的成功，凸显了在推动AI技术快速发展的同时，我们对AI安全性的投入和理解还远远不够。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。