📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2026/03/13/spex/
原文作者:BAIR Blog
理解复杂机器学习系统,尤其是大语言模型(LLM)的行为,是现代人工智能领域的核心挑战。可解释性研究旨在提高模型决策过程的透明度,这是通往更安全、更可信AI的关键一步。为了全面理解这些系统,我们通常从三个维度进行分析:特征归因(识别驱动预测的具体输入特征)、数据归因(关联模型行为与训练样本)以及机制可解释性(剖析内部组件的功能)。
在这些视角中,始终存在一个根本障碍:规模化下的复杂性。模型行为很少是由单一组件孤立产生的,而是源于复杂的依赖关系。因此,真正有效的可解释性方法必须能够捕捉这些关键交互。
通过消融进行归因
我们的方法核心在于消融(ablation),即通过观察移除组件后的变化来衡量其影响力。无论是遮盖输入提示词的片段、在训练集子集上重新训练模型,还是干预模型的正向传播,目标都是一致的:通过系统性干扰来发现驱动决策的关键因素。
通过遮盖输入的不同部分,我们测量原始输出与消融后输出之间的差异。
SPEX 与 ProxySPEX 框架
为了在可控的消融次数内发现这些关键交互,我们开发了 SPEX(光谱解释器)。该框架借鉴了信号处理和编码理论,将交互发现的规模提升了几个数量级。SPEX 捕捉到了一个关键结构观察:虽然交互总数极多,但真正具有影响力的交互却很少。
我们将其形式化为两个属性:稀疏性(只有少数交互真正驱动输出)和低度性(关键交互通常只涉及少量特征)。这使得我们将复杂的搜索问题转化为可解的稀疏恢复问题。随后,我们又开发了 ProxySPEX,利用了模型中常见的层次结构属性,在匹配 SPEX 性能的同时,将消融次数进一步减少了约 10 倍。
应用领域
特征归因
在 sentiment analysis(情感分析)任务中,SPEX 在长文本规模下保持了高度的“忠实度”(faithfulness)。通过对 GPT-4o mini 的测试,SPEX 揭示了隐藏在词语组合中的复杂语义协同作用,而传统 SHAP 方法则往往只能识别孤立的词语,无法洞察模型决策背后的完整逻辑。
数据归因
通过 ProxySPEX,我们能识别出导致模型特定决策的训练样本交互。这包括协同交互(不同类别的样本共同定义决策边界)和冗余交互(重复的语义概念)。这种细粒度分析有助于优化数据选择,在剔除冗余的同时保留必要的协同效应。
注意力头归因
在机制可解释性方面,ProxySPEX 帮助我们确定了哪些注意力头对特定行为贡献最大。我们观察到,模型浅层多表现为线性交互,而在深层,注意力头之间的协同变得尤为突出。基于此的剪枝策略甚至能进一步提升模型在目标任务上的表现。
SPEX 框架将交互发现的范围从几十个组件扩展到了数千个,为理解 AI 模型全生命周期提供了强有力的工具。我们已将代码集成至 SHAP-IQ 仓库,诚邀研究社区共同探索。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区