📢 转载信息
原文链接:https://www.nature.com/articles/s41586-026-10457-z
原文作者:Eric Y. Wang, Paul G. Fahey, et al.
为了确保所实现模型的文档记录准确,我们在此澄清《方法》(Methods)部分中描述 Conv-LSTM 和 CvT-LSTM 架构的若干细节。这些说明仅限于对《方法》描述的补充,不会影响原论文的研究结果或结论。
具体更正内容:
- 感知模块(Perspective module):《方法》中提到瞳孔位置多层感知机(MLP)使用 8 维隐藏表示;然而,在实际实现的 CvT-LSTM 模型中,该模块使用了 16 维隐藏表示。
- 四头集成(Four-head ensemble):《方法》未说明分析中所用的架构是作为四头集成实现的。在实际模型中,调制(modulation)、核心(core)和读出(readout)模块在四个头之间独立参数化(共享感知变换和读出网格),预测结果通过对各头的标准化日志响应取平均值获得。
- 调制模块(Modulation module):《方法》称调制网络接收三种行为输入(跑步机速度、瞳孔半径以及瞳孔半径的导数);但在实际的 CvT-LSTM 模型中,仅使用了跑步机速度和瞳孔半径。此外,《方法》将 LSTM 隐藏状态和单元状态描述为 8 维;而在实际模型中,这些状态在 Conv-LSTM 变体中为 6 维,在 CvT-LSTM 变体中为 16 维。
- 核心模块(Core module - 前馈):《方法》称前馈 DenseNet 块使用 GELU 非线性激活函数;但在实际的 Conv-LSTM 模型中,前馈组件使用的是 ELU,而 CvT-LSTM 模型使用的是 GELU。
- 核心模块(Core module - 循环):在该研究使用的部分 Conv-LSTM 模型变体中,循环模块还会额外接收关于视觉刺激的显式空间信息。实现方式是将视觉场中每个特征图元素位置的空间网格编码,在进入 Conv-LSTM 之前与前馈特征及调制向量进行拼接。
- 核心模块(Core module - 公式):在编辑过程中,公式块中出现了排版错误。在多个项前添加了不必要的花括号
{,且在多个项中,卷积算子(W_k *)被错误地添加为上标(W_k^*)。
如需对照,带有修订标记的《方法》文件可作为本文修订版的补充信息查阅。原文的 HTML 和 PDF 版本中的文本与公式均已完成更正。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区