目 录CONTENT

文章目录

大型语言模型包含大量的参数。但什么是参数?

Administrator
2026-01-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/

原文作者:Will Douglas Heaven


MIT Technology Review Explains:让我们的作家梳理出复杂、混乱的技术世界,帮助您了解即将到来的趋势。您可以在此处阅读该系列的更多内容



我之所以写这篇文章,是因为我的一个编辑在半夜醒来,在他床边的便签本上潦草地写下了:“什么是参数?”与许多在凌晨4点出现的想法不同,这是一个非常好的问题——它直击大型语言模型(LLM)工作原理的核心。我这么说可不是因为他是我的老板。(老板,你好!)



人们常说,大型语言模型的参数是控制其行为的旋钮和杠杆。想象一个行星大小的弹球机,其弹球通过数十亿个精心设置的挡板和保险杠在两端之间弹跳。调整这些设置,弹球的行为就会有所不同。



OpenAI 于 2020 年发布的 GPT-3 拥有 1750 亿个参数。谷歌 DeepMind 最新的 LLM Gemini 3 可能至少有 1 万亿个参数——有些人认为可能高达 7 万亿个——但该公司尚未透露。 (由于竞争激烈,人工智能公司不再分享有关其模型构建方式的信息。)



但是,关于参数是什么以及它们如何使 LLM 完成那些惊人任务的基本原理,在不同模型中都是相同的。是否曾好奇是什么让 LLM 真正运转起来——弹球机比喻背后究竟是什么?让我们深入探讨一下。



什么是参数?

回想一下初中代数,比如 2a + b。这些字母就是参数:为它们赋值,你就能得到一个结果。在数学或编程中,参数用于设定限制或确定输出。LLM 内部的参数以类似的方式工作,只是规模大得令人难以置信。



它们的值是如何分配的?

简短的回答是:一个算法。当模型进行训练时,每个参数都会被设置为一个随机值。训练过程涉及一系列迭代计算(称为训练步骤),用于更新这些值。在训练的早期阶段,模型会犯错误。训练算法会检查每个错误,并遍历模型,调整模型众多参数中的每一个值,以便下次犯错时错误会减小。这个过程会反复进行,直到模型表现出其创建者期望的行为。届时,训练停止,模型参数的值被固定下来。



听起来很简单……

理论上如此!在实践中,由于 LLM 是在海量数据上训练的,并且包含如此多的参数,因此训练它们需要大量的步骤和惊人的计算量。在训练期间,像 GPT-3 这样的中等规模 LLM 内部的 1750 亿个参数,每个参数都会被更新数万次。总而言之,这相当于数以千万亿计(一个有 15 个零的数字)的单个计算。这就是为什么训练 LLM 需要消耗如此多的能源。我们说的是数千台专业高速计算机不间断地运行数月。



哎呀。这些参数具体是用来做什么的?

LLM 中有三种不同类型的参数是通过训练分配其值的:嵌入(embeddings)、权重(weights)和偏差(biases)。我们逐一来看。



好的!那么,什么是嵌入?

嵌入是 LLM 词汇表中一个单词(或称为“词元”(token)的单词的一部分)的数学表示。LLM 的词汇表可能包含多达数十万个唯一的词元,其设计者在训练开始前就已确定。但这些词本身并没有附带任何意义。意义是在训练过程中产生的。



当模型进行训练时,其词汇表中的每个单词都会被分配一个数值,该数值根据该单词在其训练数据的大量示例中出现的频率,来捕捉该单词相对于词汇表中所有其他单词的含义。



每个单词都被替换成一种代码?

是的。但情况比这更复杂一些。代表每个单词的数值——即嵌入——实际上是一个数字列表,列表中的每个数字都代表了模型从训练数据中提取的、关于该词含义的不同方面。这个数字列表的长度是 LLM 设计者在训练 LLM 之前可以指定的另一个因素。一个常见的尺寸是 4096。



LLM 中的每个单词都由一个包含 4096 个数字的列表表示?

是的,这就是嵌入。并且在训练过程中,这些数字中的每一个都会被调整。一个长度为 4096 个数字的嵌入的 LLM 被认为具有 4096 个维度。



为什么是 4096?

这看起来像是一个奇怪的数字。但是 LLM(就像任何在计算机芯片上运行的东西一样)最适合使用 2 的幂次方——2、4、8、16、32、64,依此类推。LLM 工程师发现 4096 是一个介于能力和效率之间的最佳平衡点的 2 的幂次方。维度更少的模型能力较弱;维度更多的模型训练和运行起来成本太高或速度太慢。



使用更多的数字可以使 LLM 捕获关于单词在许多不同上下文中的用法、它可能具有的微妙内涵、它如何与其他单词相关联等非常精细的信息。



早在今年二月,OpenAI 发布了 GPT-4.5,这是该公司迄今为止最大的 LLM(一些估计认为其参数数量超过 10 万亿)。当时,OpenAI 的一名研究科学家 Nick Ryder 告诉我,更大的模型可以处理额外的信息,例如情感暗示,比如说话者的言语何时流露出敌意:“所有这些通过人类对话传递出来的微妙模式——这些就是这些越来越大的模型会捕捉到的东西。”



结论是,LLM 中的所有单词都被编码到一个高维空间中。想象一下你周围漂浮着成千上万个单词。彼此靠近的单词具有相似的含义。例如,“桌子”和“椅子”会比“宇航员”更靠近,而“宇航员”又靠近“月球”和“马斯克”。在很远的地方,你可以看到“戏法”。情况有点像这样,但不同之处在于,单词不是在三个维度上相互关联,而是在 4096 个维度上相互关联。



天哪。

这是令人眩晕的东西。实际上,LLM 将整个互联网压缩成一个单一的、巨大的数学结构,该结构编码了无法想象的海量相互关联的信息。这既是 LLM 能够完成惊人工作的原因,也是它们完全无法被理解的原因。



好的。那就是嵌入。那权重呢?

权重是表示模型不同部分之间连接强度的参数——并且是调整模型行为最常见的调谐器之一。在 LLM 处理文本时会使用权重。



当 LLM 读取一个句子(或一本书的一章)时,它首先查找所有单词的嵌入,然后将这些嵌入通过一系列称为 Transformer 的神经网络,这些网络旨在一次性处理数据序列(如文本)。句子中的每个单词都会相对于其他所有单词进行处理。



这就是权重发挥作用的地方。嵌入代表了一个单词在没有上下文的情况下的含义。当一个单词出现在特定句子中时,Transformer 会使用权重来处理该单词在该新上下文中的含义。(实际上,这涉及到将每个嵌入乘以所有其他单词的权重。)



那偏差呢?

偏差是另一种类型的旋钮,用于补充权重的效果。权重设定了模型不同部分激活(并因此将数据传递到下一部分)的阈值。偏差用于调整这些阈值,以便即使在嵌入值较低时也能触发活动。(偏差是添加到嵌入而不是与之相乘的值。)



通过改变模型部分激活的阈值,偏差使模型能够捕获其他方式可能会错失的信息。想象一下,你正试图在一个嘈杂的房间里听清某人在说什么。权重会最大程度地放大最响亮的声音;偏差就像监听设备上的一个旋钮,可以将较小的声音推到混音中。



简单来说:权重和偏差是 LLM 从给定的文本中提取尽可能多信息(information)的两种不同方式。这两种类型的参数在训练过程中都会被反复调整,以确保它们能做到这一点。



好的。那神经元呢?它们也是一种参数吗?

不,神经元更像是一种组织所有这些数学运算的方式——它们是权重和偏差的容器,通过它们之间的路径网络连接在一起。这在很大程度上受到了动物大脑中生物神经元的启发,一个神经元的信号会触发下一个神经元的信号,依此类推。



模型中的每个神经元都持有一个偏差和模型所有维度的权重。换句话说,如果一个模型有 4096 个维度——因此其嵌入是 4096 个数字的列表——那么该模型中的每个神经元将持有一个偏差和 4096 个权重。



神经元按层排列。在大多数 LLM 中,一层中的每个神经元都与上一层中的每个神经元相连。像 GPT-3 这样拥有 1750 亿个参数的模型可能有大约 100 层,每层有几万个神经元。而且每个神经元同时都在运行数以万计的计算。



又头晕了。这涉及很多数学运算。

确实涉及很多数学运算。



所有这些是如何组合在一起的?LLM 是如何接收一堆单词并决定应该返回哪些单词的?

当 LLM 处理一段文本时,该文本的数值表示——即嵌入——会穿过模型的多个层。在每一层中,嵌入的值(那个 4096 个数字的列表)都会经过一系列涉及模型参数(附加到神经元上)的计算而得到多次更新,直到到达最后一层。



诀窍在于,输入文本的所有含义、细微差别和上下文都由经过一系列令人费解的计算后的最终嵌入值所捕获。然后使用该值来计算 LLM 应该吐出的下一个单词。



您不会感到惊讶,这比听起来要复杂:模型实际上会为其词汇表中的每个单词计算下一个最有可能出现的单词,并对结果进行排名。然后它选择排名最高的单词。(大致如此。见下文……)



该单词被附加到前面的文本块中,然后整个过程重复,直到 LLM 计算出最有可能出现的下一个单词是表示其输出结束的信号为止。



就这些?

当然。嗯……



请继续。

LLM 设计者还可以指定一些其他参数,称为超参数。主要的有温度(temperature)、top-p 和 top-k。



你在编故事吧。

温度是一个充当某种创造力旋钮的参数。它会影响模型选择下一个单词的决策。我刚才说模型会对词汇表中的单词进行排名并选择最靠前的那个。但温度参数可以用来促使模型选择最有可能的下一个词,使其输出更具事实性和相关性,或者选择一个不太可能的词,使其输出更具惊喜性,而不是像机器人一样死板。



Top-p 和 top-k 是另外两个控制模型下一个词选择的旋钮。这些设置会强制模型从最有可能的词池中随机选择一个词,而不是选择排名第一的词。这些参数会影响模型的整体风格——是古怪、有创意,还是值得信赖、枯燥乏味。



最后一个问题!关于小型模型可以超越大型模型,有很多炒作。小型模型如何用更少的参数做更多的事情?

这是目前人工智能领域最热门的问题之一。它可以通过许多不同的方式发生。研究人员发现,训练数据的量起着巨大的作用。首先,你需要确保模型看到了足够多的数据:训练数据太少的 LLM 无法充分利用其所有参数,而用相同数量的数据训练的小型模型可能会超越它。



研究人员发现的另一个技巧是过度训练。向模型展示比以前认为的更多的数据似乎能提高它们的性能。结果是,在大量数据上训练的小型模型可以超越在较少数据上训练的大型模型。以 Meta 的 Llama LLM 为例。拥有 700 亿个参数的 Llama 2 在大约 2 万亿个单词的文本上进行了训练;而拥有 80 亿个参数的 Llama 3 在大约 15 万亿个单词的文本上进行了训练。小得多的 Llama 3 是更好的模型。



第三种技术被称为知识蒸馏,它使用一个较大的模型来训练一个较小的模型。较小的模型不仅在原始训练数据上进行训练,还基于较大模型的内部计算输出来进行训练。其理念是,在较大模型的参数中编码的宝贵经验会“滴灌”到较小模型的参数中,从而对其进行提升。



事实上,单一的整体式模型的时代可能已经结束了。即使是市场上最大的模型,如 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 3,也可以被看作是穿了一件大衣的几个小型模型。使用一种称为“专家混合”(mixture of experts)的技术,大型模型可以只激活自己需要的、用于处理特定文本的部分(即“专家”)。这结合了大型模型的强大能力以及小型模型的速度和较低的功耗。



但这还没有结束。研究人员仍在探索如何最大限度地利用模型的参数。随着单纯扩展带来的收益逐渐减少,增加参数的数量似乎不再像以前那样能带来决定性的差异。问题不在于你拥有多少参数,而在于你如何使用它们。



我能看一个吗?

你想一个参数?请自便:这是一个嵌入。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区