📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2025/09/01/qwem-word2vec-theory/
原文作者:BAIR (Berkeley Artificial Intelligence Research)
word2vec 究竟学习到了什么,又是如何学习的?回答这个问题,意味着我们需要理解在一个极简但有趣的语言建模任务中,表征学习是如何发生的。尽管 word2vec 是现代大语言模型的先驱,但多年来,研究人员一直缺乏描述其学习过程的量化和预测理论。在我们的最新论文中,我们终于提出了这样一种理论。我们证明,在现实且实际的场景中,该学习问题可以简化为非加权最小二乘矩阵分解。我们通过闭式解(closed form)解决了梯度流动力学问题,证明最终学习到的表征本质上就是 PCA(主成分分析)的结果。
Word2vec 的学习动力学:当从较小的初始化开始训练时,word2vec 以离散、连续的步骤进行学习。左图:权重矩阵中的秩增量学习步骤,每一步都降低了损失。右图:潜在嵌入空间的三个时间切片,展示了嵌入向量如何在每个学习步骤中扩展到更高维的子空间,直至模型容量饱和。
在深入探讨结果之前,让我们先了解问题的动机。word2vec 是一种学习词语稠密向量表征的著名算法。这些嵌入向量通过对比学习算法进行训练;训练结束时,任意两个词之间的语义关系由对应嵌入向量之间的夹角来捕捉。事实上,学习到的嵌入在几何上表现出惊人的线性结构:潜在空间中的线性子空间通常编码了诸如性别、动词时态或方言等可解释的概念。这种所谓的线性表征假设近来备受关注,因为LLM 也表现出这种行为,这使得我们可以对内部表征进行语义检查,并提供新的模型引导技术。在 word2vec 中,正是这些线性方向使得学习到的嵌入能够通过向量加法来完成类比(例如,“男人 : 女人 :: 国王 : 女王”)。
研究结果
明确了这一动机后,让我们描述一下主要结论。具体来说,假设我们将所有嵌入向量随机初始化且非常接近原点,使它们实际上是零维的。那么(在一些轻微近似下),这些嵌入会以离散的学习步骤序列一次学习一个“概念”(即正交线性子空间)。
这就像一头扎进数学新分支的学习中一样。起初,所有的术语都是混杂的——函数和泛函有什么区别?线性算子和矩阵又有什么不同?慢慢地,通过接触新的设置,词汇在脑海中相互分离,它们的真实含义也变得清晰起来。
因此,每一个新实现的线性概念有效地增加了嵌入矩阵的秩,使每个词嵌入有更多的空间来更好地表达自身及其含义。由于这些线性子空间一旦学会就不会旋转,它们实际上就是模型学习到的特征。我们的理论允许我们用闭式预先计算出每一个特征——它们只是特定目标矩阵的特征向量,该矩阵完全由可测量的语料库统计数据和算法超参数定义。
这些特征是什么?
答案非常直观:潜在特征只是以下矩阵的前几个特征向量:
M^{\star}_{ij} = \frac{P(i,j) - P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}
其中 $i$ 和 $j$ 是词汇表中的词索引,$P(i,j)$ 是词 $i$ 和 $j$ 的共现概率,$P(i)$ 是词 $i$ 的单字概率(即 $P(i,j)$ 的边际分布)。
通过维基百科统计数据构建并对该矩阵进行对角化,可以发现:第一个特征向量选取了与名人传记相关的词,第二个特征向量选取了与政府和市政管理相关的词,第三个与地理和地图描述相关,以此类推。
结论是:在训练过程中,word2vec 寻找 $M^{\star}$ 的一系列最优低秩近似。这实际上等同于在 $M^{\star}$ 上运行 PCA。
学习动力学对比,显示了离散、连续的学习步骤。
总而言之,这一结果为理解极简但相关的自然语言任务中的特征学习提供了一个完整的闭式理论。我们相信,这项工作是在获取描述实际机器学习算法性能的现实分析解决方案这一宏伟目标上迈出的重要一步。
了解更多工作详情:查看完整论文
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区