📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2026/03/13/spex/
原文作者:BAIR Blog
理解复杂机器学习系统,尤其是大语言模型(LLM)的行为,是现代人工智能领域的一项严峻挑战。可解释性研究旨在提高模型决策过程的透明度,从而使AI更加安全、可信。为了全面理解这些系统,我们可以从三个维度进行分析:特征归因、数据归因以及机械可解释性。
然而,这些方法共同面临着一个根本性障碍:大规模下的复杂性。模型行为通常不是由孤立组件决定的,而是源于复杂的依赖关系。为了实现最先进的性能,模型会综合复杂的特征关系,并处理高度互联的内部组件。因此,有效的可解释性方法必须能够捕获这些“具有影响力的交互”。
基于消融的归因分析
我们方法的核心在于消融(ablation)概念,即通过观察组件移除后系统的变化来衡量其影响力。
- 特征归因:通过屏蔽或移除输入提示的特定部分,测量预测结果的偏移。
- 数据归因:通过在不同训练集子集上训练模型,评估模型在缺少特定数据时的输出差异。
- 模型组件归因(机械可解释性):通过干预模型的前向传递,移除特定内部组件的影响,从而确定哪些内部结构对决策起决定作用。
我们的目标是通过尽可能少的消融次数来识别这些驱动因素。
通过屏蔽输入的不同部分,测量原始输出与消融后输出之间的差异。
SPEX与ProxySPEX框架
为了在大规模情况下高效发现交互,我们开发了SPEX(光谱解释器)。该框架借鉴了信号处理和编码理论,将交互发现的规模提升了多个数量级。SPEX利用了一个关键的结构观察:虽然交互的总量巨大,但真正具有影响力的交互其实非常少。
我们将其形式化为稀疏性(只有极少数交互真正驱动输出)和低阶特性(有影响力的交互通常只涉及一小部分特征)。这使我们将搜索问题转化为一个可解的稀疏恢复问题。
在后续算法ProxySPEX中,我们发现了另一个常见的结构属性:层级性。即高阶交互如果重要,其低阶子集通常也很重要。这一观察带来了显著的计算改进,仅需约1/10的消融次数即可达到SPEX的性能。
应用场景
SPEX不仅适用于特征归因,还可以分析训练数据中的协同作用与冗余,或者深入剖析模型的内部架构。在注意力头归因实验中,我们证明了基于ProxySPEX的修剪策略不仅能优化性能,甚至能在特定任务上提升模型表现。
SPEX框架的出现标志着可解释性研究的一大步。我们邀请研究界共同参与:SPEX和ProxySPEX的代码现已集成并发布在流行的 SHAP-IQ 仓库中。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区