皮层树突中矢量化的指导信号-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.nature.com/articles/s41586-026-10190-7

原文作者：Valerio Francioni, Vincent D. Tang, Enrique H. S. Toloza, Zilan Ding, Norma J. Brown & Mark T. Harnett

摘要

矢量化的教学信号是现代机器学习算法（包括反向传播、目标传播和强化学习）几乎所有关键要素。矢量化通过为单个神经元量身定制指导信号，为信用分配问题提供了一个可扩展且计算高效的解决方案。最近的理论模型表明，神经回路可以通过在单独的树突区室中处理前馈和反馈信息流来实现细胞层面的单相矢量化学习。这是一个引人注目但未经检验的假设，关于皮层回路如何在生物体中解决信用分配问题。在此，我们使用一个实验者定义的奖励函数的神经反馈脑机接口（BCI）任务来测试树突中的矢量化指导信号。我们训练小鼠调节后缘皮层（RSC）中五到六个皮层锥体神经元的两个空间交织群体的活动，以使视觉光栅旋转至目标方向，同时我们记录了它们的胞体和相应远端树突的GCaMP活性。我们观察到，胞体和树突信号的相对幅度可以通过周围网络的活动来预测，并包含可作为指导信号的任务相关变量信息，包括奖励和误差。这些假定的教学信号的符号取决于单个神经元在任务中的因果作用，并预测了学习过程中整体活动的改变。此外，对这些信号进行靶向的光遗传学扰动破坏了学习。这些结果证明了大脑中存在矢量化指导信号，该信号通过皮层树突中半独立的计算来实现，揭示了解决大脑中信用分配问题的潜在机制。

正文

学习是神经元之间突触连接强度变化的结果^{6,7,8,9,10,11,12,13}。突触修饰对网络输出的影响可能难以预测，尤其是在大脑等复杂的分层网络中。如何改变单个突触以提高任务性能的挑战被称为信用分配问题^{14,15,16,17,18}。虽然这个问题在人工神经网络（ANN）中通过反向传播算法得到了有效解决¹⁹，但大脑如何解决信用分配问题仍然未知^14,15。

最近的理论工作提出了几种生物回路可能解决信用分配的模型，包括目标学习和类似反向传播的算法^{1,2,3,4,5,20,21}。无论是人工还是受生物启发的信用分配解决方案，其核心都是指导信号的矢量化，而不是单一标量教学信号的广播¹⁴。有效的学习除了矢量化之外，还需要指导信号与前馈输入相分离，以防止干扰¹⁵。在ANN中，这是通过时间分离来实现的，这长期以来被认为在生物学上不切实际。一种假设是，在皮层中，与信用相关的信号在锥体神经元的树突中是空间上而不是时间上分离的¹⁵。这与解剖学和回路证据一致，即前馈输入在胞周区域接收，反馈输入在远端树突接收^{22,23,24,25,26,27,28,29,30,31}。然而，关于信用分配的亚细胞机制的直接证据仍然缺乏。

树突层面的矢量化教学信号应满足四个可实验检验的条件。首先，树突活动应包含仅靠胞体活动无法获得的信息（尽管理论上胞体可以使用定性不同的尖峰模式来传递梯度^2,4,32，但树突的电缆特性预测胞体和树突活动之间存在一定程度的独立性）。其次，树突活动应编码关于任务表现的信息，这些信息可以作为指导信号，例如奖励和误差表征。第三，树突活动应反映该神经元对任务表现（即奖励函数）的贡献。第四，破坏矢量化的指导性树突信号应损害学习。

使用BCI任务指定奖励函数

迄今为止，评估生物神经网络中的信用分配已被证明是不可能的^14,15。教学信号只能相对于将神经活动映射到任务表现的奖励函数来定义。目前尚不清楚这些函数是否在大脑中明确表示。即使表示了，实验人员也无法得知它们在神经活动方面的具体表述¹⁵。神经反馈脑机接口（BCI）任务为解决这个问题提供了一个潜在方案，即直接将神经活动与任务表现耦合，从而允许实验者指定要优化的奖励函数^14,20,21。先前的研究表明，小鼠能够学习使用各种反馈刺激和脑区执行BCI任务，并且学习会引起控制BCI的神经元活动的改变，包括海马体和各种感觉和运动皮层^{33,34,35,36,37,38,39}。在这里，我们利用视觉引导的神经反馈BCI任务在皮层锥体神经元中测试了与误差和奖励相关的信号的亚细胞机制（图1a–c和补充图1和2）。我们训练了头部固定的实验小鼠，在双光子显微镜下控制后缘皮层（RSC）中标记有GCaMP7f的L5锥体神经元的两个空间交织的集合，标记为P+和P−（选择标准见扩展数据图1和4b以及方法）。P+神经元的平均胞体GCaMP活性与P−神经元的活性之差，与视觉光栅相对于奖励目标角度的旋转相关联^{33,34,35,36,38,39}（图1d–f和补充数据图1）。我们选择RSC是因为L5的光学可及性以及先前在该区域证明存在独立树突事件⁴⁰。我们以近端树突干的GCaMP活性作为胞体活性的替代指标进行记录（15 Hz）；这使得在记录许多神经元的同时减少了信号污染，因为树突干具有更精确的空间足迹和更快的信号动力学^41,42,43。我们使用两个指标来衡量任务表现：准确率（成功奖励试验的比例）和速度（每分钟获得的奖励次数）。小鼠（n = 6）通过这两个指标学习了任务（图1g和扩展数据图2和3）。

我们比较了P+和P−群体，以及没有直接参与刺激旋转的周围神经元群体（称为P₀）在任务表现天数上的活动水平。我们在整个实验过程中纵向成像了相同的神经元。我们发现学习伴随着P+和P−神经元活动在天数上的差异性调节（图1h,i），其中P+神经元维持其活动水平，而P−神经元被下调。平均而言，P₀神经元的活动变化与P+神经元相似（图1i），但选择在第1天具有与P+和P−神经元相似活动水平的P₀神经元子集发现，P₀神经元的活动变化介于P+和P−神经元之间（扩展数据图4）。由于第1天最活跃的神经元也是被下调最强的神经元（扩展数据图4c），我们的结果与通过稀疏化（任务的节能解决方案）进行学习的模型一致⁴⁴。任务表现的提高与几天内运动的变化无关（扩展数据图3）。此外，P+和P−群体在空间上是交织的，并且在第1天具有相同的GCaMP瞬态频率（扩展数据图1和4a），排除了仅通过参与非特异性增益调节机制来学习任务的可能性。

树突包含其胞体中不存在的信息

为了确定树突顶端活动是否包含仅靠其母体胞体活动无法编码的信息，我们使用一个电可调透镜对学习过程中跨越近端和远端树突干的活动进行了半同步记录（每平面15 Hz）（图2a）。我们根据近端和远端树突的GCaMP信号的皮尔逊相关系数将它们配对，阈值设为r = 0.6，如先前研究^41,42,43。先前的脑片研究表明，当电流注入远端树干时，树突GCaMP信号较大，当电流注入胞体时，信号较小⁴¹（控制相同数量的触发的相应动作电位）。这表明胞体和树突在一致的GCaMP事件中的幅度差异反映了靶向这两个区室的不同输入的空间偏差。为了估计胞体和树突事件的幅度，我们首先使用CASCADE⁴⁵对胞体和树突的GCaMP迹线进行反卷积。反卷积使我们能够校正跨树突区室信号动力学不同的公知问题⁴⁶。接下来，我们使用曲线下面积（AUC）方法来量化单个瞬态的幅度（所有主要结果也使用基于ΔF/F₀的方法对瞬态幅度进行估计，方法和补充图3进行了验证），并将事件定义为如果它们在500毫秒内发生，则为一致事件。由于这些一致事件代表了绝大多数GCaMP瞬态^{40,41,42,43,46,47,48,49,50,51,52}，我们将所有后续分析集中在两个区室中都检测到瞬态的事件上。

经验上，我们观察到，尽管事件时间相关性非常高（图2b；与先前研究一致^{40,41,43,46,47,49}），胞体和树突一致事件的相对幅度存在显著差异。由于胞体和树突事件幅度最好用线性关系描述（扩展数据图5和6b），我们使用所有事件的最佳拟合线来评估树突放大与衰减的相对程度，然后计算与单个瞬态相关的胞体-树突残差（SD残差）⁴³（图2b,c）。这捕捉了给定胞体事件幅度下树突反应的方差。然后，我们将正残差和负残差分别定义为树突放大事件和树突衰减事件。

为了检验SD残差是否包含具有生物学意义的信息，我们使用感兴趣神经元中单个GCaMP事件发生前2秒内视野中所有胞体的活动来预测这些事件是树突放大还是衰减（图2d）（P+和P−神经元在第1天至第14天）。为此，我们使用线性支持向量机（SVM），这是一种常用的算法，用于使用高维数据进行分类和回归。我们发现，单个神经元的二元分类器性能与解码器捕获分类置信度中树突放大或衰减幅度能力有很强的相关性（图2e,g,h和扩展数据图6c,d和7a,b）。这是一个涌现的特性，因为解码器仅针对二元分类进行训练，并且没有关于树突放大或衰减幅度的信息。在466个神经元中，约有20%的神经元表现出分类置信度与SD残差幅度之间存在显著相关性（图2h和扩展数据图6c,d和7a,b）。在这些神经元中，我们能够准确解码61%的事件是放大还是衰减，远高于50%的随机水平（图2j和扩展数据图6e和7c）。此外，在单细胞水平上，我们发现分类置信度与SD残差之间存在统计学上显著的正皮尔逊相关性，证明周围神经元网络可用于预测一致的胞体-树突瞬态的幅度（图2k和扩展数据图6f和7d）。值得注意的是，我们的分析方法使胞体事件幅度与SD残差完全去相关（图2f,I和扩展数据图6a），这表明胞体-树突耦合的不匹配是独立于胞体活动而被预测的，代表了在树突中从头编码的信息。此外，我们的结果表明P₀神经元可以与P+和P−神经元以相同的水平解码（扩展数据图8），并且解码不依赖于跨这三个子群体的对视觉刺激的胞体反应（扩展数据图9）。

我们进一步发现，与胞体相比，树突放大事件通常比树突衰减事件更早达到峰值（图2l和扩展数据图10）。这表明SD残差与事件潜伏期有关，其中较大的残差意味着树突瞬态峰值早于胞体瞬态峰值的时间更短（图2m）。

任务学习期间树突信号与胞体信号的差异

我们想知道这些差异是否在学习过程中发生了变化。由于P+和P−神经元在第1天对任务的贡献是相反的（P+朝向奖励，P−朝向负奖励），我们比较了学习过程中它们的SD残差（图3a）。我们发现，P+树突在训练期间被系统性地放大，而P−树突被系统性地衰减（图3b）。这与在整个群体中观察到的P+活动增加和P−活动减少的模式一致（图1i）。值得注意的是，P+树突放大（平均+0.057 ± 0.008 SD残差）与P−树突衰减（平均-0.036 ± 0.007 SD残差）在学习过程中是显著不同的（t检验，P = 2.2 × 10⁻⁷）。

接下来，我们想知道这些差异是否可以解码来自周围网络的指令信号。我们对SD残差进行解码，以评估它们是否包含有关奖励或误差的信息，同时控制胞体活动的影响（图3c）。我们使用了训练期间P+和P−活动的平均z分数作为任务相关变量的代理。我们发现，SD残差能够解码奖励（AUC = 0.58 ± 0.008；P = 6.7 × 10⁻¹⁰；n = 466神经元）和误差（AUC = 0.56 ± 0.008；P = 8.8 × 10⁻⁷；n = 466神经元），远高于随机水平（AUC = 0.5 ± 0.008）。相比之下，控制胞体活动（z分数）的解码表现更差（奖励：AUC = 0.51 ± 0.007；P = 0.33；误差：AUC = 0.50 ± 0.007；P = 0.99）。

我们进一步分析了这些信号在学习过程中的演变（图3d）。奖励信息在整个学习阶段（早期、中期、晚期）在SD残差中都是可解码的，而胞体z分数解码的奖励信息在早期和中期显著，但在晚期任务表现最好时变得不显著。误差信息在早期和中期在SD残差中是可解码的，但在晚期变得不显著，而胞体z分数在所有阶段都未解码出误差信息。这表明树突信号可能是解决信用分配的关键，因为它在任务学习过程中一直编码着奖励和误差信号。我们还检查了在特定时间点解码性能的稳定性，发现SD残差的解码性能在整个时间段内比胞体z分数更稳定（图3e）。最后，我们检查了解码器是否能够识别特定群体的贡献。我们使用仅P+和仅P−神经元（第1天）进行训练，然后测试了对所有神经元（第14天）的解码性能。我们发现，仅用P+或仅用P−神经元训练的解码器在第14天仍然能够显著解码奖励，这表明尽管SD残差的绝对值在学习过程中发生了变化，但其符号（即相对于胞体活动是放大还是衰减）可能编码了关于神经元在任务中的因果作用的信息（图3f）。

局部网络活动预测树突放大和衰减

为了检验SD残差是否反映了特定神经元的因果作用，我们测试了其符号（放大/衰减）是否可以由预测瞬态发生的周围网络活动来预测。我们使用训练好的线性SVM来预测每个瞬态是否被放大或衰减，如前所述（图2d）。我们发现，网络活动能够预测瞬态的放大与衰减，而网络活动本身与任务表现相关（图4a,b）。具体来说，在第1天，我们发现网络活动在预测P+瞬态的放大/衰减方面具有很高的准确性（AUC = 0.73 ± 0.02），这与P+在当时是唯一被积极调节的群体的观察结果一致。相比之下，P−瞬态的预测性能较低（AUC = 0.56 ± 0.02），与P₀瞬态的性能相当（AUC = 0.55 ± 0.02）。在第14天，P−的预测性能增加到AUC = 0.63 ± 0.02，而P+和P₀的性能保持稳定（P+：AUC = 0.70 ± 0.02；P₀：AUC = 0.54 ± 0.02）。

我们还发现，与P+和P−神经元相比，P₀神经元的SD残差变化更小（图4c,d）。我们观察到，P+神经元的残差在第14天比第1天更接近正无穷大（斜率：0.054 ± 0.009 z/天），表明其树突信号被持续放大。P−神经元的残差则相反（斜率：-0.034 ± 0.008 z/天），表明其树突信号被持续衰减。P₀神经元的残差变化不显著（斜率：0.011 ± 0.005 z/天）。这与P+和P−神经元在学习中被积极调节的观察结果一致，而P₀神经元没有显著变化。

为了验证这些变化是否与学习目标相关，我们将残差斜率与胞体活动斜率进行了比较（图4e,f）。我们发现，P+神经元中，SD残差的斜率与胞体活动斜率呈正相关（r = 0.31，P = 0.001），而P−神经元中呈负相关（r = -0.25，P = 0.009）。P₀神经元中没有显著相关性（r = 0.02，P = 0.81）。这表明，对于P+神经元，胞体活动增加的同时树突放大也增加；对于P−神经元，胞体活动增加的同时树突衰减也增加。这支持了树突信号代表了与胞体活动不同的、与任务学习相关的、矢量化的指导信号。

树突信号扰动破坏学习

最后，我们测试了是否扰动这些矢量化树突信号会损害学习。我们使用定向光遗传学抑制（473 nm光照）来选择性地干预P+和P−神经元的树突活动，以模拟学习过程中观察到的放大或衰减的相反操作（即，光遗传学抑制P+树突以模拟衰减，光遗传学刺激P−树突以模拟放大）（图5a）。我们仅在第7天（学习中期）进行扰动，持续2天。

我们发现，模拟P+树突衰减的抑制（即，向P+施加负面指导信号）导致任务准确率和每分钟奖励次数显著下降（图5b），与对照组相比，学习过程停滞不前。有趣的是，模拟P−树突放大的刺激（即，向P−施加正面指导信号）对任务表现没有显著影响（图5b）。我们观察到，抑制P+树突后，其SD残差向负值移动（图5c），但胞体活动（z分数）没有显著变化（图5d）。相比之下，对P−树突的刺激导致其SD残差向正值移动（图5c），但胞体活动没有显著变化（图5d）。这些结果有力地表明，树突中的矢量化指导信号是实现信用分配所必需的。通过模拟P+树突的负面信号，我们干扰了学习的有利驱动力，导致任务学习停滞。

总而言之，我们的结果首次证明了皮层树突中存在一个矢量化的指导信号。该信号在胞体和树突中通过半独立的计算实现，并且编码了对信用分配至关重要的信息（奖励和误差）。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

皮层树突中矢量化的指导信号

摘要

正文

使用BCI任务指定奖励函数

树突包含其胞体中不存在的信息

任务学习期间树突信号与胞体信号的差异

局部网络活动预测树突放大和衰减

树突信号扰动破坏学习

评论区