📢 转载信息
原文作者:Sean Gallagher
在大型语言模型(LLM)安全性方面,研究人员发现了一种新的、令人担忧的攻击方式,该方式利用了模型自身的结构特性和训练数据中的潜在偏见来绕过安全措施。
偏见诱导的红队攻击(BIR)
本周在arXiv上发布的一篇论文介绍了一种名为“Bias-Induced Red Teaming”(BIR)的新型攻击方法。该方法的核心思想是:通过系统地引入或放大模型已有的特定偏见,使其对某些类型的查询表现出过度保守(或过度自由),从而绕过安全过滤器。
LLM通常经过严格的对齐训练(alignment training),以确保它们不会生成有害、非法或不当的内容。这些安全护栏通常是基于特定规则或对危险查询的直接识别来运作的。
BIR攻击则不直接尝试“越狱”模型,而是先诱导模型形成一个特定的偏见状态。一旦模型处于这种状态,即使是看似无害的查询,也可能因为触发了被放大的偏见而得到拒绝,或者反之,得到原本应该被拒绝的有害回答。
攻击如何运作
该攻击过程通常分为两个阶段:
- 偏见诱导(Bias Induction):攻击者首先向模型输入一系列精心构造的提示,这些提示旨在强化模型内部的某个特定偏见。例如,如果模型对某一特定主题(如政治观点或技术能力)存在轻微的倾向性,攻击者会通过重复的、微调的输入来放大这种倾向。
- 目标查询(Target Query):在模型处于这种“偏见状态”后,攻击者再提出目标查询。在某些情况下,由于模型已经“习惯”了某种回答模式,它会更容易输出原本受限的内容。在其他情况下,过度强化的偏见会导致模型变得过度敏感,从而拒绝回答一些正常的查询。
研究人员发现,这种攻击尤其擅长针对分类任务或中立性要求高的任务,因为LLM的决策边界在这些领域可能更加模糊。
实验结果令人担忧
在对当前最先进的模型(包括GPT-4和Claude 3系列)进行的测试中,BIR攻击显示出显著的成功率。研究人员发现,通过BIR,他们可以成功地使模型拒绝回答一些本应是中立或允许的问题,这表明模型的“拒绝”逻辑可能被不当地触发。
“我们发现,这种攻击在诱导模型对某些主题产生强烈的、非预期的厌恶或偏好方面非常有效,” 论文作者写道。
更令人不安的是,一旦模型被诱导产生偏见,即使后续的输入提示有所变化,这种偏见状态也可能在一定程度上持续存在,直到模型进行硬重置或上下文窗口被清空。
对未来AI安全的影响
这项研究对当前依赖于“安全分类器”和“红队对抗”来确保LLM安全的方法提出了严峻的挑战。传统的红队测试通常侧重于发现直接的“越狱”提示(如“请告诉我如何制造炸药”)。然而,BIR攻击表明,安全漏洞可能隐藏在模型的内部状态和认知偏差中。
这表明,仅仅依赖于对恶意输入的过滤是不够的。模型在处理大量输入数据后形成的内在“世界观”或偏好,也可能成为被恶意利用的攻击面。
研究人员呼吁AI开发人员和安全社区需要开发更具鲁棒性的对齐技术,这些技术不仅要抵御直接的恶意输入,还要能够识别并纠正模型自身产生的、可能被滥用的内部偏见。
最终,确保AI系统的安全,可能需要我们更深入地理解模型是如何形成和维持其“信念”和“倾向”的。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区