SPEX与ProxySPEX：在大规模模型中实现高效的可解释性与交互发现-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2026/03/13/spex/

原文作者：BAIR Blog

理解复杂机器学习系统，尤其是大语言模型（LLM）的行为，是现代人工智能领域的一项严峻挑战。可解释性研究旨在提高模型决策过程的透明度，从而使AI更加安全、可信。为了全面理解这些系统，我们可以从三个维度进行分析：特征归因、数据归因以及机械可解释性。

然而，这些方法共同面临着一个根本性障碍：大规模下的复杂性。模型行为通常不是由孤立组件决定的，而是源于复杂的依赖关系。为了实现最先进的性能，模型会综合复杂的特征关系，并处理高度互联的内部组件。因此，有效的可解释性方法必须能够捕获这些“具有影响力的交互”。

基于消融的归因分析

我们方法的核心在于消融（ablation）概念，即通过观察组件移除后系统的变化来衡量其影响力。

我们的目标是通过尽可能少的消融次数来识别这些驱动因素。

通过屏蔽输入的不同部分，测量原始输出与消融后输出之间的差异。

为了在大规模情况下高效发现交互，我们开发了SPEX（光谱解释器）。该框架借鉴了信号处理和编码理论，将交互发现的规模提升了多个数量级。SPEX利用了一个关键的结构观察：虽然交互的总量巨大，但真正具有影响力的交互其实非常少。

我们将其形式化为稀疏性（只有极少数交互真正驱动输出）和低阶特性（有影响力的交互通常只涉及一小部分特征）。这使我们将搜索问题转化为一个可解的稀疏恢复问题。

在后续算法ProxySPEX中，我们发现了另一个常见的结构属性：层级性。即高阶交互如果重要，其低阶子集通常也很重要。这一观察带来了显著的计算改进，仅需约1/10的消融次数即可达到SPEX的性能。

SPEX不仅适用于特征归因，还可以分析训练数据中的协同作用与冗余，或者深入剖析模型的内部架构。在注意力头归因实验中，我们证明了基于ProxySPEX的修剪策略不仅能优化性能，甚至能在特定任务上提升模型表现。

SPEX框架的出现标志着可解释性研究的一大步。我们邀请研究界共同参与：SPEX和ProxySPEX的代码现已集成并发布在流行的 SHAP-IQ 仓库中。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。