📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2025/09/01/qwem-word2vec-theory/
原文作者:BAIR 研究团队
word2vec 究竟学到了什么,又是如何学习的?回答这个问题,意味着我们需要理解在一个极简但有趣的语言建模任务中,表征学习(representation learning)是如何运作的。尽管 word2vec 是现代语言模型众所周知的先驱,但多年来,研究人员一直缺乏描述其学习过程的量化和预测性理论。在我们的最新论文中,我们终于提出了这一理论。我们证明了在某些现实、实用的范畴内,该学习问题可以简化为无权最小二乘矩阵分解(unweighted least-squares matrix factorization)。我们以闭式解(closed form)求解了梯度流动力学;最终学到的表征仅仅由 PCA(主成分分析)给出。
Word2vec 的学习动力学。当从较小的初始化开始训练时,word2vec 会以离散、连续的步骤进行学习。左图:权重矩阵中的秩递增学习步骤,每一步都降低了损失。右图:潜在嵌入空间中的三个时间切片,展示了嵌入向量如何在每个学习步骤中扩展到更高维度的子空间,直到模型容量饱和。
在阐述这一结果之前,让我们先探讨一下问题动机。word2vec 是一种学习单词稠密向量表征的著名算法。这些嵌入向量通过对比算法训练;在训练结束时,任意两个单词之间的语义关系由对应嵌入向量之间的角度捕捉。事实上,学到的嵌入在几何上表现出惊人的线性结构:潜在空间中的线性子空间通常编码了诸如性别、动词时态或方言等可解释的概念。这种所谓的线性表征假设(linear representation hypothesis)最近备受关注,因为大型语言模型(LLM)也表现出这种行为,从而使得对内部表征进行语义检查成为可能,并为新型模型控制技术提供了支撑。在 word2vec 中,正是这些线性方向使得学到的嵌入可以通过向量加法完成类比(例如,“男人 : 女人 :: 国王 : 女王”)。
研究成果
有了这个动机,让我们描述一下主要结论。具体来说,假设我们将所有嵌入向量随机初始化且非常靠近原点,使它们实际上处于零维状态。那么(在一些轻微的近似下),嵌入向量会集体在一个离散的学习步骤序列中,一次学习一个“概念”(即正交线性子空间)。
这就像一头扎进学习一个新的数学分支。起初,所有的术语都是混乱的——函数(function)和泛函(functional)有什么区别?线性算子(linear operator)和矩阵又有什么不同?慢慢地,通过接触新的设置,单词在脑海中彼此分离,它们的真实含义也变得清晰起来。
结果是,每一个新实现的线性概念都有效地增加了嵌入矩阵的秩,使每个单词嵌入有更多的空间来更好地表达自身及其含义。由于这些线性子空间一旦学成就不会旋转,它们实际上就是模型学到的特征。我们的理论使我们能够在闭式中先验地计算出这些特征——它们仅仅是特定目标矩阵的特征向量,该矩阵完全根据可测量的语料库统计数据和算法超参数定义。
什么是特征?
答案非常直观:潜在特征仅仅是以下矩阵的前几个特征向量:
M*ij = (P(i,j) - P(i)P(j)) / (0.5 * (P(i,j) + P(i)P(j)))
其中 i 和 j 为词汇表中的单词索引,P(i,j) 是单词 i 和 j 的共现概率,P(i) 是单词 i 的一元概率。
通过维基百科的统计数据构建并对角化该矩阵,可以发现第一个特征向量选择了与名人传记相关的词汇,第二个特征向量选择了与政府和市政管理相关的词汇,第三个与地理和地图描述符相关,依此类推。
展示离散、连续学习步骤的学习动力学对比。
总而言之,这一结果为理解极简但相关的自然语言任务中的特征学习,提供了首个完整的闭式理论。我们相信,这项工作是朝着获得描述实际机器学习算法性能的现实解析解这一宏大目标迈出的重要一步。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区