📢 转载信息
原文链接:https://www.nature.com/articles/s41586-026-10190-7
原文作者:Valerio Francioni, Vincent D. Tang, Enrique H. S. Toloza, Zilan Ding, Norma J. Brown & Mark T. Harnett
摘要
矢量化的教学信号是现代机器学习算法(包括反向传播、目标传播和强化学习)几乎所有关键要素。矢量化通过为单个神经元量身定制指导信号,为信用分配问题提供了一个可扩展且计算高效的解决方案。最近的理论模型表明,神经回路可以通过在单独的树突区室中处理前馈和反馈信息流来实现细胞层面的单相矢量化学习。这是一个引人注目但未经检验的假设,关于皮层回路如何在生物体中解决信用分配问题。在此,我们使用一个实验者定义的奖励函数的神经反馈脑机接口(BCI)任务来测试树突中的矢量化指导信号。我们训练小鼠调节后缘皮层(RSC)中五到六个皮层锥体神经元的两个空间交织群体的活动,以使视觉光栅旋转至目标方向,同时我们记录了它们的胞体和相应远端树突的GCaMP活性。我们观察到,胞体和树突信号的相对幅度可以通过周围网络的活动来预测,并包含可作为指导信号的任务相关变量信息,包括奖励和误差。这些假定的教学信号的符号取决于单个神经元在任务中的因果作用,并预测了学习过程中整体活动的改变。此外,对这些信号进行靶向的光遗传学扰动破坏了学习。这些结果证明了大脑中存在矢量化指导信号,该信号通过皮层树突中半独立的计算来实现,揭示了解决大脑中信用分配问题的潜在机制。
正文
学习是神经元之间突触连接强度变化的结果6,7,8,9,10,11,12,13。突触修饰对网络输出的影响可能难以预测,尤其是在大脑等复杂的分层网络中。如何改变单个突触以提高任务性能的挑战被称为信用分配问题14,15,16,17,18。虽然这个问题在人工神经网络(ANN)中通过反向传播算法得到了有效解决19,但大脑如何解决信用分配问题仍然未知14,15。
最近的理论工作提出了几种生物回路可能解决信用分配的模型,包括目标学习和类似反向传播的算法1,2,3,4,5,20,21。无论是人工还是受生物启发的信用分配解决方案,其核心都是指导信号的矢量化,而不是单一标量教学信号的广播14。有效的学习除了矢量化之外,还需要指导信号与前馈输入相分离,以防止干扰15。在ANN中,这是通过时间分离来实现的,这长期以来被认为在生物学上不切实际。一种假设是,在皮层中,与信用相关的信号在锥体神经元的树突中是空间上而不是时间上分离的15。这与解剖学和回路证据一致,即前馈输入在胞周区域接收,反馈输入在远端树突接收22,23,24,25,26,27,28,29,30,31。然而,关于信用分配的亚细胞机制的直接证据仍然缺乏。
树突层面的矢量化教学信号应满足四个可实验检验的条件。首先,树突活动应包含仅靠胞体活动无法获得的信息(尽管理论上胞体可以使用定性不同的尖峰模式来传递梯度2,4,32,但树突的电缆特性预测胞体和树突活动之间存在一定程度的独立性)。其次,树突活动应编码关于任务表现的信息,这些信息可以作为指导信号,例如奖励和误差表征。第三,树突活动应反映该神经元对任务表现(即奖励函数)的贡献。第四,破坏矢量化的指导性树突信号应损害学习。
使用BCI任务指定奖励函数
迄今为止,评估生物神经网络中的信用分配已被证明是不可能的14,15。教学信号只能相对于将神经活动映射到任务表现的奖励函数来定义。目前尚不清楚这些函数是否在大脑中明确表示。即使表示了,实验人员也无法得知它们在神经活动方面的具体表述15。神经反馈脑机接口(BCI)任务为解决这个问题提供了一个潜在方案,即直接将神经活动与任务表现耦合,从而允许实验者指定要优化的奖励函数14,20,21。先前的研究表明,小鼠能够学习使用各种反馈刺激和脑区执行BCI任务,并且学习会引起控制BCI的神经元活动的改变,包括海马体和各种感觉和运动皮层33,34,35,36,37,38,39。在这里,我们利用视觉引导的神经反馈BCI任务在皮层锥体神经元中测试了与误差和奖励相关的信号的亚细胞机制(图1a–c和补充图1和2)。我们训练了头部固定的实验小鼠,在双光子显微镜下控制后缘皮层(RSC)中标记有GCaMP7f的L5锥体神经元的两个空间交织的集合,标记为P+和P−(选择标准见扩展数据图1和4b以及方法)。P+神经元的平均胞体GCaMP活性与P−神经元的活性之差,与视觉光栅相对于奖励目标角度的旋转相关联33,34,35,36,38,39(图1d–f和补充数据图1)。我们选择RSC是因为L5的光学可及性以及先前在该区域证明存在独立树突事件40。我们以近端树突干的GCaMP活性作为胞体活性的替代指标进行记录(15 Hz);这使得在记录许多神经元的同时减少了信号污染,因为树突干具有更精确的空间足迹和更快的信号动力学41,42,43。我们使用两个指标来衡量任务表现:准确率(成功奖励试验的比例)和速度(每分钟获得的奖励次数)。小鼠(n = 6)通过这两个指标学习了任务(图1g和扩展数据图2和3)。
a, BCI设置示意图。小鼠头部固定,在双光子(2P)显微镜下成像,并可在圆柱形跑步机上自由奔跑。在RSC中标记有GCaMP7f的L5锥体神经元的两个用户定义群体被成像于近端树突干:P+(红色)和P−(蓝色),用于控制一个Gabor斑点的旋转。P0神经元被定义为视野中所有其他神经元。单帧图像进行在线配准(运动校正)。P+神经元的活性使斑点顺时针旋转,朝向90°的目标角度。P−神经元的活性使Gabor斑点刺激逆时针旋转,朝向0°的角度。b, P+和P−活性、刺激角度、目标活性和误差之间的映射示意图。误差是当前激活与目标激活之间的距离。角度表示P+神经元平均活性减去P−神经元平均活性的一种分箱的(7个箱,间隔15°,从0°到90°)线性映射。c, 试验结构:小鼠有28秒的时间达到目标活性并在1秒后获得奖励。在成功的试验中,90° Gabor斑点显示2秒,随后是1秒黑屏。在不成功的试验中,在下一个试验开始前显示3秒黑屏。d, P+(红色)和P−(蓝色)神经元的ΔF/F0实时记录迹线。垂直虚线和三角表示小鼠达到目标活性的时间点。e, d中高亮显示的P+和P−活性的平均值(红色和蓝色迹线)。黑色迹线显示P+和P−神经元算术差值(z标准化)。橙色迹线显示呈现给小鼠的相应视觉刺激角度。f, 对达到目标活性时间点(虚线,垂直线和黑色三角)对P+和P−活性的平均ΔF/F0进行对齐(高亮显示在d,e中的试验)。奖励在1秒后给出(带有水奖励的实心垂直线)。阴影区域表示s.e.m.。g, 每天量化的平均表现,量化为成功试验数占总试验数的比例以及每分钟奖励次数(单因素重复测量方差分析,准确率 P = 5 × 10−4,每分钟奖励次数 P = 0.002;n = 6只小鼠)。红色虚线代表准确率表现的随机水平(方法)。阴影区域表示s.e.m.。h, 同一批P+和P−神经元在第1天和第14天的ΔF/F0迹线。i, P+, P−和P0神经元的钙瞬态频率在14天训练期间相对于第1天的活动归一化。所有神经元在整个14天的成像过程中都被追踪。双因素重复测量方差分析,群体身份、天数和群体身份与天数交互作用的P值分别为P = 0.012, P = 0.004 和 P = 9.3 × 10−4。Tukey多重比较后,P = 0.027 (P+ 对比 P− 神经元), P = 0.95 (P+ 对比 P0 神经元) 和 P = 0.01 (P− 对比 P0 神经元)。n = 6只小鼠。阴影区域表示s.e.m.
我们比较了P+和P−群体,以及没有直接参与刺激旋转的周围神经元群体(称为P0)在任务表现天数上的活动水平。我们在整个实验过程中纵向成像了相同的神经元。我们发现学习伴随着P+和P−神经元活动在天数上的差异性调节(图1h,i),其中P+神经元维持其活动水平,而P−神经元被下调。平均而言,P0神经元的活动变化与P+神经元相似(图1i),但选择在第1天具有与P+和P−神经元相似活动水平的P0神经元子集发现,P0神经元的活动变化介于P+和P−神经元之间(扩展数据图4)。由于第1天最活跃的神经元也是被下调最强的神经元(扩展数据图4c),我们的结果与通过稀疏化(任务的节能解决方案)进行学习的模型一致44。任务表现的提高与几天内运动的变化无关(扩展数据图3)。此外,P+和P−群体在空间上是交织的,并且在第1天具有相同的GCaMP瞬态频率(扩展数据图1和4a),排除了仅通过参与非特异性增益调节机制来学习任务的可能性。
树突包含其胞体中不存在的信息
为了确定树突顶端活动是否包含仅靠其母体胞体活动无法编码的信息,我们使用一个电可调透镜对学习过程中跨越近端和远端树突干的活动进行了半同步记录(每平面15 Hz)(图2a)。我们根据近端和远端树突的GCaMP信号的皮尔逊相关系数将它们配对,阈值设为r = 0.6,如先前研究41,42,43。先前的脑片研究表明,当电流注入远端树干时,树突GCaMP信号较大,当电流注入胞体时,信号较小41(控制相同数量的触发的相应动作电位)。这表明胞体和树突在一致的GCaMP事件中的幅度差异反映了靶向这两个区室的不同输入的空间偏差。为了估计胞体和树突事件的幅度,我们首先使用CASCADE45对胞体和树突的GCaMP迹线进行反卷积。反卷积使我们能够校正跨树突区室信号动力学不同的公知问题46。接下来,我们使用曲线下面积(AUC)方法来量化单个瞬态的幅度(所有主要结果也使用基于ΔF/F0的方法对瞬态幅度进行估计,方法和补充图3进行了验证),并将事件定义为如果它们在500毫秒内发生,则为一致事件。由于这些一致事件代表了绝大多数GCaMP瞬态40,41,42,43,46,47,48,49,50,51,52,我们将所有后续分析集中在两个区室中都检测到瞬态的事件上。
a, 邻近树干的近端和远端树突双平面2光子钙成像示意图。b, 单个关注神经元(顶部;跨越第1-14天的P+和P−神经元)和5个周围神经元(底部)的胞体和树突中同时记录的ΔF/F0迹线。数字1-5表示已识别的GCaMP事件。c, b中所示示例神经元胞体和树突瞬态积分之间的关系。数据点代表在胞体和树突中同时检测到的单个事件(方法)。最小二乘线性模型(灰色虚线)将事件定义为树突放大(残差 +)与树突衰减(残差 −)。事件1-5对应于b中所示的瞬态。下标d表示反卷积后的。d, 对于b,c中所示的关注神经元的每个一致事件,我们估计了在GCaMP事件发生前的2秒内使用视野中所有其他神经元的网络活动向量。这里,网络活动向量仅为可视化目的投影到前三个主成分上。黑色阴影超平面代表使用线性SVM计算的二元分类决策边界(树突放大与树突衰减)。事件1-5对应于与瞬态1-5相关的网络活动向量,如b,c所示。e, c中估计的SD残差与d中估计的决策边界距离(超平面距离)之间的关系。虚线代表最小二乘最佳拟合线。为了与d保持视觉一致性,超平面距离仅使用前三个主成分进行估计(仅用于可视化)。f, c中估计的SD残差与胞体事件幅度之间的关系。高亮显示的事件1-5对应于b–e中所示的事件。虚线代表最小二乘最佳拟合线。g, 解码性能与SD残差和超平面距离之间相关性(Pearson’s r = 0.74;P = 1.4 × 10−84, n = 466 神经元)的关系。数据点代表单个神经元。h, 对所有神经元,测试数据和随机置换控制分布的P值分布,检验SD残差与距离超平面的距离(或分类置信度)的相关性(Wilcoxon符号秩检验 P = 1.3 × 10−9;n = 466 神经元)的相关性,如e中估计的。i, 左图,所有神经元中,f中表征的SD残差与胞体事件幅度的Pearson’s r。基于残差的方法使SD残差与单独的胞体活动完全去相关。右图,测试数据的该直方图的放大版本。j, 胞体和树突的平均ΔF/F0事件,分别针对所有树突放大(左)和树突衰减(右)事件,用于单个神经元。ΔF/F0迹线与胞体峰值时间对齐。事件潜伏期定义为胞体和相应树突峰值之间的时间。树突放大事件比树突衰减事件更早达到峰值。k, SD残差与胞体和相应树突之间事件潜伏期的Pearson相关值,表明SD残差越大,树突峰值相对于胞体峰值的时间越早(配对t检验,P = 8 × 10−13;测试 -0.075 ± 0.007 和置换 -0.005 ± 0.006,平均值 ± s.e.m; n = 466 神经元)。
经验上,我们观察到,尽管事件时间相关性非常高(图2b;与先前研究一致40,41,43,46,47,49),胞体和树突一致事件的相对幅度存在显著差异。由于胞体和树突事件幅度最好用线性关系描述(扩展数据图5和6b),我们使用所有事件的最佳拟合线来评估树突放大与衰减的相对程度,然后计算与单个瞬态相关的胞体-树突残差(SD残差)43(图2b,c)。这捕捉了给定胞体事件幅度下树突反应的方差。然后,我们将正残差和负残差分别定义为树突放大事件和树突衰减事件。
为了检验SD残差是否包含具有生物学意义的信息,我们使用感兴趣神经元中单个GCaMP事件发生前2秒内视野中所有胞体的活动来预测这些事件是树突放大还是衰减(图2d)(P+和P−神经元在第1天至第14天)。为此,我们使用线性支持向量机(SVM),这是一种常用的算法,用于使用高维数据进行分类和回归。我们发现,单个神经元的二元分类器性能与解码器捕获分类置信度中树突放大或衰减幅度能力有很强的相关性(图2e,g,h和扩展数据图6c,d和7a,b)。这是一个涌现的特性,因为解码器仅针对二元分类进行训练,并且没有关于树突放大或衰减幅度的信息。在466个神经元中,约有20%的神经元表现出分类置信度与SD残差幅度之间存在显著相关性(图2h和扩展数据图6c,d和7a,b)。在这些神经元中,我们能够准确解码61%的事件是放大还是衰减,远高于50%的随机水平(图2j和扩展数据图6e和7c)。此外,在单细胞水平上,我们发现分类置信度与SD残差之间存在统计学上显著的正皮尔逊相关性,证明周围神经元网络可用于预测一致的胞体-树突瞬态的幅度(图2k和扩展数据图6f和7d)。值得注意的是,我们的分析方法使胞体事件幅度与SD残差完全去相关(图2f,I和扩展数据图6a),这表明胞体-树突耦合的不匹配是独立于胞体活动而被预测的,代表了在树突中从头编码的信息。此外,我们的结果表明P0神经元可以与P+和P−神经元以相同的水平解码(扩展数据图8),并且解码不依赖于跨这三个子群体的对视觉刺激的胞体反应(扩展数据图9)。
我们进一步发现,与胞体相比,树突放大事件通常比树突衰减事件更早达到峰值(图2l和扩展数据图10)。这表明SD残差与事件潜伏期有关,其中较大的残差意味着树突瞬态峰值早于胞体瞬态峰值的时间更短(图2m)。
任务学习期间树突信号与胞体信号的差异
我们想知道这些差异是否在学习过程中发生了变化。由于P+和P−神经元在第1天对任务的贡献是相反的(P+朝向奖励,P−朝向负奖励),我们比较了学习过程中它们的SD残差(图3a)。我们发现,P+树突在训练期间被系统性地放大,而P−树突被系统性地衰减(图3b)。这与在整个群体中观察到的P+活动增加和P−活动减少的模式一致(图1i)。值得注意的是,P+树突放大(平均+0.057 ± 0.008 SD残差)与P−树突衰减(平均-0.036 ± 0.007 SD残差)在学习过程中是显著不同的(t检验,P = 2.2 × 10−7)。
接下来,我们想知道这些差异是否可以解码来自周围网络的指令信号。我们对SD残差进行解码,以评估它们是否包含有关奖励或误差的信息,同时控制胞体活动的影响(图3c)。我们使用了训练期间P+和P−活动的平均z分数作为任务相关变量的代理。我们发现,SD残差能够解码奖励(AUC = 0.58 ± 0.008;P = 6.7 × 10−10;n = 466神经元)和误差(AUC = 0.56 ± 0.008;P = 8.8 × 10−7;n = 466神经元),远高于随机水平(AUC = 0.5 ± 0.008)。相比之下,控制胞体活动(z分数)的解码表现更差(奖励:AUC = 0.51 ± 0.007;P = 0.33;误差:AUC = 0.50 ± 0.007;P = 0.99)。
a, 单个神经元的SD残差在第1天和第14天的示意图。b, 所有神经元在第1天和第14天时的平均SD残差。n = 466神经元。双因素重复测量方差分析,群体身份、天数和交互作用的P值分别为P = 5.7 × 10−36, P = 0.004 和 P = 0.003。Tukey多重比较后,P < 0.001 (P+ vs P−),P = 0.003 (P+ vs P0),P = 0.08 (P− vs P0)。c, 奖励(左)和误差(右)的AUC值,用于解码(顶部)SD残差和(底部)胞体z分数。P值表示与AUC = 0.5(随机水平)的差异(双侧检验,n = 466神经元)。误差栏表示标准误。d, 奖励(左)和误差(右)的AUC值,用于解码(顶部)SD残差和(底部)胞体z分数,在学习的不同阶段:早期(第1-3天)、中期(第4-11天)和晚期(第12-14天)。P值表示与AUC = 0.5的差异(双侧检验,n = 466神经元)。e, P值地图,显示了不同时间点(横轴)和不同神经元(纵轴)的奖励解码性能。f, 奖励(左)和误差(右)的AUC值,用于解码(顶部)SD残差和(底部)胞体z分数,用于在第1天(左)和第14天(右)分别仅使用P+和P−神经元进行训练的解码器。P值表示与AUC = 0.5的差异(双侧检验,n = 466神经元)。
我们进一步分析了这些信号在学习过程中的演变(图3d)。奖励信息在整个学习阶段(早期、中期、晚期)在SD残差中都是可解码的,而胞体z分数解码的奖励信息在早期和中期显著,但在晚期任务表现最好时变得不显著。误差信息在早期和中期在SD残差中是可解码的,但在晚期变得不显著,而胞体z分数在所有阶段都未解码出误差信息。这表明树突信号可能是解决信用分配的关键,因为它在任务学习过程中一直编码着奖励和误差信号。我们还检查了在特定时间点解码性能的稳定性,发现SD残差的解码性能在整个时间段内比胞体z分数更稳定(图3e)。最后,我们检查了解码器是否能够识别特定群体的贡献。我们使用仅P+和仅P−神经元(第1天)进行训练,然后测试了对所有神经元(第14天)的解码性能。我们发现,仅用P+或仅用P−神经元训练的解码器在第14天仍然能够显著解码奖励,这表明尽管SD残差的绝对值在学习过程中发生了变化,但其符号(即相对于胞体活动是放大还是衰减)可能编码了关于神经元在任务中的因果作用的信息(图3f)。
局部网络活动预测树突放大和衰减
为了检验SD残差是否反映了特定神经元的因果作用,我们测试了其符号(放大/衰减)是否可以由预测瞬态发生的周围网络活动来预测。我们使用训练好的线性SVM来预测每个瞬态是否被放大或衰减,如前所述(图2d)。我们发现,网络活动能够预测瞬态的放大与衰减,而网络活动本身与任务表现相关(图4a,b)。具体来说,在第1天,我们发现网络活动在预测P+瞬态的放大/衰减方面具有很高的准确性(AUC = 0.73 ± 0.02),这与P+在当时是唯一被积极调节的群体的观察结果一致。相比之下,P−瞬态的预测性能较低(AUC = 0.56 ± 0.02),与P0瞬态的性能相当(AUC = 0.55 ± 0.02)。在第14天,P−的预测性能增加到AUC = 0.63 ± 0.02,而P+和P0的性能保持稳定(P+:AUC = 0.70 ± 0.02;P0:AUC = 0.54 ± 0.02)。
a, 奖励(左)和误差(右)的AUC值,用于解码(顶部)SD残差和(底部)胞体z分数,在第1天(左)和第14天(右)分别仅使用P+和P−神经元进行训练的解码器。P值表示与AUC = 0.5的差异(双侧检验,n = 466神经元)。b, 对所有神经元,第1天和第14天时,将网络活动向量分类为树突放大和树突衰减事件的AUC值。P值表示与AUC = 0.5的差异(双侧检验,n = 466神经元)。c, P+(左)和P−(右)神经元的平均SD残差相对于其在第1天的活动(z分数)的图。d, P+(左)和P−(右)神经元的平均SD残差相对于奖励信号的图。e, 对所有神经元,计算从第1天到第14天的SD残差的斜率(z/天)。f, 对所有神经元,计算从第1天到第14天的胞体z分数的斜率(z/天)。
我们还发现,与P+和P−神经元相比,P0神经元的SD残差变化更小(图4c,d)。我们观察到,P+神经元的残差在第14天比第1天更接近正无穷大(斜率:0.054 ± 0.009 z/天),表明其树突信号被持续放大。P−神经元的残差则相反(斜率:-0.034 ± 0.008 z/天),表明其树突信号被持续衰减。P0神经元的残差变化不显著(斜率:0.011 ± 0.005 z/天)。这与P+和P−神经元在学习中被积极调节的观察结果一致,而P0神经元没有显著变化。
为了验证这些变化是否与学习目标相关,我们将残差斜率与胞体活动斜率进行了比较(图4e,f)。我们发现,P+神经元中,SD残差的斜率与胞体活动斜率呈正相关(r = 0.31,P = 0.001),而P−神经元中呈负相关(r = -0.25,P = 0.009)。P0神经元中没有显著相关性(r = 0.02,P = 0.81)。这表明,对于P+神经元,胞体活动增加的同时树突放大也增加;对于P−神经元,胞体活动增加的同时树突衰减也增加。这支持了树突信号代表了与胞体活动不同的、与任务学习相关的、矢量化的指导信号。
树突信号扰动破坏学习
最后,我们测试了是否扰动这些矢量化树突信号会损害学习。我们使用定向光遗传学抑制(473 nm光照)来选择性地干预P+和P−神经元的树突活动,以模拟学习过程中观察到的放大或衰减的相反操作(即,光遗传学抑制P+树突以模拟衰减,光遗传学刺激P−树突以模拟放大)(图5a)。我们仅在第7天(学习中期)进行扰动,持续2天。
a, 扰动方案示意图:在第7天和第8天,我们使用光遗传学分别抑制(473 nm光照)P+树突(模拟衰减)或P−树突(模拟放大)。b, 目标角度(90°)的准确率(左)和每分钟奖励次数(右)。灰线表示无光遗传学干预的对照组。c, P+(左)和P−(右)神经元的平均SD残差,在扰动期间(灰色阴影区域)和扰动后。d, 扰动期间和扰动后的P+(左)和P−(右)神经元的平均胞体z分数。
我们发现,模拟P+树突衰减的抑制(即,向P+施加负面指导信号)导致任务准确率和每分钟奖励次数显著下降(图5b),与对照组相比,学习过程停滞不前。有趣的是,模拟P−树突放大的刺激(即,向P−施加正面指导信号)对任务表现没有显著影响(图5b)。我们观察到,抑制P+树突后,其SD残差向负值移动(图5c),但胞体活动(z分数)没有显著变化(图5d)。相比之下,对P−树突的刺激导致其SD残差向正值移动(图5c),但胞体活动没有显著变化(图5d)。这些结果有力地表明,树突中的矢量化指导信号是实现信用分配所必需的。通过模拟P+树突的负面信号,我们干扰了学习的有利驱动力,导致任务学习停滞。
总而言之,我们的结果首次证明了皮层树突中存在一个矢量化的指导信号。该信号在胞体和树突中通过半独立的计算实现,并且编码了对信用分配至关重要的信息(奖励和误差)。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。





评论区