📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2026/03/13/spex/
原文作者:Berkeley Artificial Intelligence Research
理解复杂机器学习系统,特别是大型语言模型(LLMs)的行为,是现代人工智能中的一个关键挑战。可解释性研究旨在使模型构建者和受影响的个人能够更透明地了解其决策过程,这是迈向更安全、更可信赖AI的重要一步。为了获得全面的理解,我们可以通过不同的视角来分析这些系统:特征归因,它分离出驱动预测的特定输入特征(Lundberg & Lee, 2017;Ribeiro et al., 2022);数据归因,它将模型行为与有影响力的训练示例联系起来(Koh & Liang, 2017;Ilyas et al., 2022);以及机制可解释性,它剖析内部组件的功能(Conmy et al., 2023;Sharkey et al., 2025)。
在这些视角中,同一个根本性障碍依然存在:规模上的复杂性。模型的行为很少是孤立组件的结果;相反,它源于复杂的依赖关系和模式。为了实现最先进的性能,模型需要综合复杂的特征关系,从多样化的训练示例中找到共享模式,并通过高度互连的内部组件处理信息。
因此,基于现实的或经过现实检验的可解释性方法也必须能够捕捉这些有影响力的交互作用。随着特征、训练数据点和模型组件数量的增长,潜在的交互作用数量呈指数级增长,使得详尽的分析在计算上不可行。在这篇博文中,我们将描述SPEX和ProxySPEX的根本思想,这些算法能够大规模识别这些关键的交互作用。
消融(Ablation)驱动的归因
我们方法的核心是消融的概念,即通过观察移除组件后发生的变化来衡量其影响。
- 特征归因:我们屏蔽或移除输入提示的特定部分,并衡量由此产生的预测变化。
- 数据归因:我们在训练集的不同子集上训练模型,评估在没有特定训练数据的情况下模型在测试点上的输出如何变化。
- 模型组件归因(机制可解释性):我们通过移除特定内部组件的影响来干预模型的正向传播,从而确定哪些内部结构负责模型的预测。
在每种情况下,目标都是相同的:通过系统地扰动系统来分离决策的驱动因素,以期发现有影响力的交互作用。由于每次消融都会带来显著的成本,无论是通过昂贵的推理调用还是重新训练,我们的目标是使用尽可能少的消融次数来计算归因。
通过屏蔽输入的不用部分,我们测量原始输出和消融后输出之间的差异。
SPEX和ProxySPEX框架
为了用可行的消融次数发现有影响力的交互作用,我们开发了SPEX(Spectral Explainer)。该框架借鉴了信号处理和编码理论,将交互作用发现推进到比先前方法大几个数量级的规模。SPEX通过利用一个关键的结构性观察来规避这个问题:虽然总的交互作用数量庞大得令人望而却步,但有影响力的交互作用数量实际上非常少。
我们通过两个观察来形式化这一点:稀疏性(相对较少的交互作用真正驱动输出)和低度数性(有影响力的交互作用通常只涉及一小部分特征)。这些性质使我们能够将这个困难的搜索问题重新构建为一个可解决的稀疏恢复问题。借鉴信号处理和编码理论中的强大工具,SPEX使用策略性选择的消融来组合许多候选交互作用。然后,利用高效的解码算法,我们分离出这些组合信号,以隔离负责模型行为的特定交互作用。

在后续算法ProxySPEX中,我们识别了复杂机器学习模型中的另一个常见结构属性:层级性。这意味着,当一个高阶交互作用很重要时,其低阶子集很可能也很重要。这一额外的结构观察带来了计算成本的显著改善:它以大约10倍更少的消融次数实现了SPEX的性能。总的来说,这些框架使得高效的交互作用发现成为可能,从而为特征、数据和模型组件归因解锁了新的应用。
特征归因
特征归因技术根据输入特征对模型输出的影响程度为其分配重要性分数。例如,如果一个LLM被用于进行医学诊断,这种方法可以准确地识别出哪些症状导致了模型的结论。虽然为单个特征归因重要性可能很有价值,但复杂模型真正的力量在于它们捕获特征之间复杂关系的能力。下图说明了这些有影响力的交互作用的示例:从双重否定改变情感(左)到RAG任务中多个文档的必要综合(右)。

下图展示了SPEX在情感分析任务上的特征归因性能。我们使用保真度来评估性能:这是一种衡量恢复的归因在多大程度上能够预测模型在未见过的测试消融上的输出的度量。我们发现SPEX在短输入上能达到现有交互技术(Faith-Shap, Faith-Banzhaf)的高保真度,但独特的是,当上下文扩展到数千个特征时,它仍能保持这种性能。相比之下,虽然边际方法(LIME, Banzhaf)也可以在此规模下运行,但它们的保真度显著较低,因为它们未能捕捉驱动模型输出的复杂交互作用。

SPEX还被应用于一个修改版的电车难题,该难题消除了道德上的模糊性,使“是”成为明确的正确答案。鉴于以下修改,GPT-4o mini仅有8%的时间回答正确。当我们应用标准的特征归因(SHAP)时,它将“trolley”这个词的单个实例识别为导致错误响应的主要因素。然而,将“trolley”替换为“tram”或“streetcar”等同义词对模型的预测影响很小。SPEX揭示了一个更丰富的故事,识别出“trolley”的两个实例之间以及“pulling”和“lever”等词之间存在一个主要的、高阶的协同作用,这一发现与人类对难题核心组成部分的直觉一致。当这四个词被替换为同义词时,模型的失败率接近于零。

数据归因
数据归因识别出哪些训练数据点对模型在新的测试点上的预测负有最大责任。识别这些数据点之间的有影响力的交互作用是解释模型意外行为的关键。冗余的交互作用,如语义重复,通常会强化特定的(可能是错误的)概念,而协同交互作用对于定义没有单个样本能够单独形成的决策边界至关重要。为了说明这一点,我们将ProxySPEX应用于在CIFAR-10上训练的ResNet模型,识别出各种困难测试点中最显著的两种交互作用类型(协同作用和冗余作用)的示例,如下图所示。

如图所示,协同交互作用(左)通常涉及语义上不同的类别,共同定义决策边界。例如,从人类感知角度来看,汽车(左下)与提供的训练图像共享视觉特征,包括跑车的低底盘、黄色卡车的方形车身以及红色送货车的水平条纹。另一方面,冗余交互作用(右)倾向于捕捉强化特定概念的视觉重复。例如,“马”的预测(右中)受到一群具有相似剪影的狗图像的影响。这种细粒度的分析使得开发新的数据选择技术成为可能,这些技术可以在保留必要的协同作用的同时安全地去除冗余。
注意力头归因(机制可解释性)
模型组件归因的目标是识别模型内部的哪些部分,如特定层或注意力头,对特定行为负有最大责任。在这里,ProxySPEX也揭示了架构不同部分之间负责的交互作用。理解这些结构依赖对于架构干预至关重要,例如特定任务的注意力头剪枝。在MMLU数据集(高中美国历史)上,我们证明了ProxySPEX指导下的剪枝策略不仅优于竞争方法,而且实际上可以提高模型在目标任务上的性能。

在此任务上,我们还分析了模型深度上的交互作用结构。我们观察到早期层主要在线性状态下运行,此时注意力头独立地为目标任务做出贡献。在后期层中,注意力头之间交互作用的作用更加明显,大部分贡献来自同一层内注意力头之间的交互作用。

后续展望?
SPEX框架代表了可解释性研究的一个重大进步,将交互作用发现的范围从数十个扩展到数千个组件。我们已经证明了该框架在整个模型生命周期中的多功能性:探索长上下文输入的特征归因,识别训练数据点之间的协同作用和冗余,以及发现内部模型组件之间的交互作用。未来,在统一这些不同视角方面,仍然存在许多有趣的研究问题,以提供对机器学习系统更全面的理解。系统地将交互作用发现方法与基因组学和材料科学等领域的现有科学知识进行对照评估也极具意义,这既能巩固模型发现,又能产生新的、可检验的假设。
我们邀请研究界加入我们共同努力:SPEX和ProxySPEX的代码均已完全集成,并可在流行的SHAP-IQ存储库中获得(链接)。
- https://github.com/mmschlk/shapiq (SHAP-IQ Github)
- https://openreview.net/forum?id=KI8qan2EA7 (ProxySPEX NeurIPS 2025)
- https://openreview.net/forum?id=pRlKbAwczl (SPEX ICML 2025)
- https://openreview.net/forum?id=glGeXu1zG4 (Learning to Understand NeurIPS 2024)
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区