SPEX与ProxySPEX：在大规模模型中高效发现关键交互与可解释性-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2026/03/13/spex/

原文作者：BAIR Blog

理解复杂机器学习系统，尤其是大语言模型（LLM）的行为，是现代人工智能领域的核心挑战。可解释性研究旨在提高模型决策过程的透明度，这是通往更安全、更可信AI的关键一步。为了全面理解这些系统，我们通常从三个维度进行分析：特征归因（识别驱动预测的具体输入特征）、数据归因（关联模型行为与训练样本）以及机制可解释性（剖析内部组件的功能）。

在这些视角中，始终存在一个根本障碍：规模化下的复杂性。模型行为很少是由单一组件孤立产生的，而是源于复杂的依赖关系。因此，真正有效的可解释性方法必须能够捕捉这些关键交互。

通过消融进行归因

我们的方法核心在于消融（ablation），即通过观察移除组件后的变化来衡量其影响力。无论是遮盖输入提示词的片段、在训练集子集上重新训练模型，还是干预模型的正向传播，目标都是一致的：通过系统性干扰来发现驱动决策的关键因素。

different_tests
通过遮盖输入的不同部分，我们测量原始输出与消融后输出之间的差异。

SPEX 与 ProxySPEX 框架

为了在可控的消融次数内发现这些关键交互，我们开发了 SPEX（光谱解释器）。该框架借鉴了信号处理和编码理论，将交互发现的规模提升了几个数量级。SPEX 捕捉到了一个关键结构观察：虽然交互总数极多，但真正具有影响力的交互却很少。

我们将其形式化为两个属性：稀疏性（只有少数交互真正驱动输出）和低度性（关键交互通常只涉及少量特征）。这使得我们将复杂的搜索问题转化为可解的稀疏恢复问题。随后，我们又开发了 ProxySPEX，利用了模型中常见的层次结构属性，在匹配 SPEX 性能的同时，将消融次数进一步减少了约 10 倍。

应用领域

特征归因

在 sentiment analysis（情感分析）任务中，SPEX 在长文本规模下保持了高度的“忠实度”（faithfulness）。通过对 GPT-4o mini 的测试，SPEX 揭示了隐藏在词语组合中的复杂语义协同作用，而传统 SHAP 方法则往往只能识别孤立的词语，无法洞察模型决策背后的完整逻辑。

数据归因

通过 ProxySPEX，我们能识别出导致模型特定决策的训练样本交互。这包括协同交互（不同类别的样本共同定义决策边界）和冗余交互（重复的语义概念）。这种细粒度分析有助于优化数据选择，在剔除冗余的同时保留必要的协同效应。

注意力头归因

在机制可解释性方面，ProxySPEX 帮助我们确定了哪些注意力头对特定行为贡献最大。我们观察到，模型浅层多表现为线性交互，而在深层，注意力头之间的协同变得尤为突出。基于此的剪枝策略甚至能进一步提升模型在目标任务上的表现。

SPEX 框架将交互发现的范围从几十个组件扩展到了数千个，为理解 AI 模型全生命周期提供了强有力的工具。我们已将代码集成至 SHAP-IQ 仓库，诚邀研究社区共同探索。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

SPEX与ProxySPEX：在大规模模型中高效发现关键交互与可解释性