目 录CONTENT

文章目录

关于Word2Vec学习过程的理论:它学到了什么?

Administrator
2025-12-02 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2025/09/01/qwem-word2vec-theory/

原文作者:Dhruva Karkada’s blog


word2vec到底学习了什么,以及它是如何学习的?回答这个问题等同于理解一个最小但有趣的语言建模任务中的表征学习。尽管word2vec是现代语言模型的良好先驱,但多年来,研究人员一直缺乏一个描述其学习过程的定量和可预测的理论。在我们的新论文中,我们终于提供了这样一个理论。我们证明在存在现实可行的情况下,学习问题可以简化为无权最小二乘矩阵分解。我们以闭合形式求解梯度流动力学;最终学习到的表征简单地由PCA给出。


Word2Vec的学习动力学。当从小的初始化开始训练时,word2vec以离散的、顺序的步骤进行学习。左图:权重矩阵中增加秩的学习步骤,每一步都使损失下降。右图:潜在线性嵌入空间的三个时间切片,显示嵌入向量如何在每个学习步骤中扩展到维度不断增加的子空间,直到模型容量饱和。

在详细介绍这一结果之前,让我们先说明问题的动机。word2vec是学习词语密集向量表示的一个著名算法。这些嵌入向量是使用对比学习算法训练的;在训练结束时,任意两个词之间的语义关系由相应嵌入之间的角度来捕捉。事实上,学习到的嵌入在几何上表现出惊人的线性结构:潜在空间中的线性子空间通常编码了可解释的概念,如性别、动词时态或方言。这种所谓的线性表征假设最近受到了广泛关注,因为LLM也表现出这种行为,从而能够对内部表征进行语义检查,并为新颖的模型引导技术提供了可能。在word2vec中,正是这些线性方向使得学习到的嵌入能够通过嵌入向量加法来完成类比(例如,“男人:女人 :: 国王:王后”)。

也许这不应令人感到意外:毕竟,word2vec算法只是遍历文本语料库,并使用自监督梯度下降来训练一个两层线性网络,以模拟自然语言中的统计规律。从这个角度来看,很明显word2vec是一个最小的神经语言模型。因此,理解word2vec是理解更复杂的语言建模任务中特征学习的先决条件。

结果

有了这个动机,让我们来描述主要结果。具体来说,假设我们将所有嵌入向量随机初始化,并且非常接近原点,使它们有效地成为零维的。那么(在一些温和的近似下),嵌入会集体地、一个接一个地学习一个“概念”(即正交线性子空间),这些学习步骤是离散的。

这就像初次深入学习一个新数学分支一样。起初,所有的术语都是混杂的——函数和泛函有什么区别?线性算子和矩阵有什么区别?慢慢地,通过接触新的、有趣的情境,词语在脑海中相互分离,它们的真正含义也变得更清晰。

因此,每个新实现的线性概念有效地增加了嵌入矩阵的,为每个词嵌入提供了更多的空间来更好地表达自身及其含义。由于这些线性子空间一旦学习就不会旋转,它们实际上就是模型的学习特征。我们的理论允许我们闭合形式地先验计算出这些特征——它们仅仅是某个特定目标矩阵的特征向量,该矩阵仅由可测量的语料库统计数据和算法超参数定义。

特征是什么?

答案非常简单:潜在特征就是以下矩阵的前几位特征向量

\[M^{\star}_{ij} = \frac{P(i,j) - P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}\]

其中 $i$ 和 $j$ 对词汇表中的词语进行索引,$P(i,j)$ 是词语 $i$ 和 $j$ 的共现概率,$P(i)$ 是词语 $i$ 的一元概率(即 $P(i,j)$ 的边际分布)。

从维基百科的统计数据中构建并对这个矩阵进行对角化处理,可以发现第一个特征向量选择了与名人传记相关的词语,第二个特征向量选择了与政府和市政管理相关的词语,第三个与地理和制图描述符相关,依此类推。

要点是:在训练过程中,word2vec会找到 $M^{\star}$ 的一系列最优低秩近似。这实际上等同于对 $M^{\star}$ 运行PCA

以下图表说明了这种行为。


学习动力学对比,显示离散、顺序的学习步骤。

在左图中,关键的经验观察是word2vec(加上我们的温和近似)以一系列本质上是离散的步骤进行学习。每一步都增加了嵌入的有效秩,导致损失阶梯式下降。在右图中,我们展示了潜在嵌入空间的三个时间切片,表明嵌入如何在每一步学习中沿着新的正交方向扩展。此外,通过检查与这些奇异方向对齐程度最高的词语,我们观察到每个离散的“知识片段”都对应一个可解释的主题级别概念。这些学习动力学可以用闭合形式求解,我们观察到理论与数值实验之间存在极好的匹配。

我们所做的温和近似是什么?它们是:1)目标函数在原点附近的四次近似;2)对算法超参数施加的特定约束;3)足够小的初始嵌入权重;以及4)梯度下降步长趋近于零。值得庆幸的是,这些条件并不算太苛刻,事实上,它们与原始word2vec论文中描述的设置非常相似。

重要的是,这些近似不涉及数据分布!事实上,该理论的一个巨大优点在于它不对分布做任何假设。因此,该理论可以根据语料库统计数据和算法超参数精确预测出所学习的特征。这一点尤其有用,因为在分布无关的环境中,对学习动力学的细粒度描述是罕见且难以获得的;据我们所知,这是第一个针对实际自然语言任务的此类理论。

至于我们所做的近似,我们经验性地证明了我们的理论结果仍然是对原始word2vec的忠实描述。为了粗略衡量我们近似设置与真实word2vec之间的一致性,我们可以比较标准类比完成基准测试上的经验得分:word2vec达到68%的准确率,我们研究的近似模型达到66%,而标准的经典替代方案(称为PPMI)仅获得51%。请查阅我们的论文以查看详细比较的图表。

为了证明结果的实用性,我们将理论应用于研究抽象线性表征(对应于二元概念,如男性/女性或过去/未来)的出现。我们发现,在学习过程中,word2vec以一系列嘈杂的学习步骤构建这些线性表征,它们的几何结构可以用一个尖刺随机矩阵模型很好地描述。在训练早期,语义信号占主导地位;然而,在训练后期,噪声可能会开始占据主导地位,导致模型解析线性表征的能力下降。更多细节请参阅我们的论文。

总而言之,这一结果为最小但相关的自然语言任务中的特征学习提供了第一个完整的闭合形式理论。从这个意义上说,我们认为我们的工作是在更广泛的项目中向前迈出的重要一步,即获得描述实用机器学习算法性能的现实分析解。

了解更多关于我们的工作:全文链接


本文最初发表于Dhruva Karkada的博客




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区