目 录CONTENT

文章目录

大型语言模型包含大量参数。但什么是参数?

Administrator
2026-01-21 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/

原文作者:Will Douglas Heaven


MIT Technology Review Explains:让我们的作家梳理出复杂、混乱的技术世界,帮助您了解即将发生的事情。您可以在此处阅读该系列的更多内容


我之所以写这篇文章,是因为我的一位编辑在半夜醒来,在床边的便笺本上写下:“什么是参数?”与许多凌晨4点冒出的想法不同,这是一个非常好的问题——它直击大型语言模型(LLM)工作原理的核心。我这么说可不仅仅是因为他是我的老板。(老板,你好!)


人们常说,大型语言模型的参数是控制其行为的“旋钮和杠杆”。想象一个行星大小的弹球机,它的弹珠通过数十亿个精确设置的挡板和保险杠,从一端弹到另一端。调整这些设置,弹珠的行为就会有所不同。


OpenAI于2020年发布的GPT-3拥有1750亿个参数。谷歌DeepMind最新的LLM Gemini 3可能至少有1万亿个参数——有些人认为可能更接近7万亿个——但该公司并未透露。(鉴于竞争激烈,人工智能公司不再分享有关其模型构建方式的信息。)


但是,参数是什么以及它们如何使LLM完成那些令人瞩目的工作,这些基本原理在不同模型中是相同的。想知道是什么让LLM真正运转起来了吗?在色彩斑斓的弹球机比喻背后到底是什么?让我们深入了解一下。


什么是参数?


回想一下初中代数,比如 2a + b。这些字母就是参数:给它们赋值,你就能得到一个结果。在数学或编程中,参数用于设定限制或决定输出。LLM内部的参数工作方式类似,只是规模大得令人难以置信。


它们的值是如何确定的?


简短的回答是:一个算法。当一个模型在训练时,每个参数都被设置为一个随机值。训练过程涉及一系列的迭代计算(称为训练步数),这些计算会更新这些值。在训练的早期阶段,模型会犯错误。训练算法会检查每一个错误,然后返回模型,微调模型中许多参数的值,以便下次这个错误会更小。这个过程会一遍又一遍地重复,直到模型按照其设计者的意愿行事。那时,训练停止,模型的参数值就被固定下来了。


听起来很简单……


理论上如此!但在实践中,由于LLM是在海量数据上训练的,并且包含如此多的参数,训练它们需要大量的步骤和惊人的计算量。在训练过程中,像GPT-3这样的中等规模LLM内部的1750亿个参数,每个参数都会被更新数万次。总共加起来,相当于数万亿次(一个有15个零的数字)的单个计算。这就是为什么训练一个LLM需要消耗如此多的能源。我们谈论的是数千台专业高速计算机不间断运行数月。


哎呀。这些参数到底有什么用?


LLM内部有三种不同类型的参数,它们的值是通过训练确定的:嵌入(embeddings)权重(weights)偏置(biases)。我们逐一来看。


好的!那么,什么是嵌入(Embeddings)?


嵌入是LLM词汇表中一个词(或一个词的一部分,称为token)的数学表示。LLM的词汇表(可能包含多达数十万个唯一token)在训练开始前由其设计者设定。但这些词本身并没有附带任何含义。含义是在训练过程中产生的。


当模型进行训练时,词汇表中的每个词都会被分配一个数值,该数值根据该词在模型训练数据中无数示例中的出现方式,来捕捉该词相对于所有其他词的含义。


每个词都被替换成一种代码?


是的。但情况比这要复杂一些。代表每个词的数值——即嵌入——实际上是一个数字列表,列表中每个数字代表模型从训练数据中提取的含义的不同方面。这个数字列表的长度是LLM设计者在训练LLM之前可以指定的另一个参数。常见的大小是4096。


LLM中的每个词都由一个包含4096个数字的列表表示?


是的,这就是一个嵌入。并且这些数字在训练过程中都会被微调。一个嵌入长度为4096个数字的LLM被称为具有4096个维度。


为什么要用4096?


这看起来可能是一个奇怪的数字。但是LLM(以及任何在计算机芯片上运行的东西)最适合使用2的幂次方——2、4、8、16、32、64,依此类推。LLM工程师发现,4096是介于能力和效率之间的最佳平衡点的2的幂次方。维度较少的模型能力较弱;维度更多的模型训练和运行成本过高或速度过慢。


使用更多的数字可以让LLM捕获关于一个词在许多不同上下文中的使用方式、它可能具有的细微含义、它与其他词的关系等非常精细的信息。


回到今年2月,OpenAI发布了GPT-4.5,这是该公司迄今为止最大的LLM(一些估计将其参数数量定在10万亿以上)。参与该模型的OpenAI研究科学家Nick Ryder当时告诉我,更大的模型可以处理额外的信息,比如情绪暗示,例如说话者的言语何时表明敌意:“所有这些通过人类对话传递的微妙模式——这些是这些越来越大的模型将会捕捉到的东西。”


要点是,LLM中的所有词都被编码到一个高维空间中。想象一下你周围的空气中漂浮着数千个词。彼此距离越近的词,含义越相似。例如,“桌子”和“椅子”会比“宇航员”更接近,“宇航员”又会接近“月亮”和“马斯克”。在很远的地方,你可以看到“戏法”(prestidigitation)。它有点像这样,但不同之处在于,词语之间不是在三个维度上相互关联,而是在LLM内部的4096个维度上相互关联。


哇。


这让人头晕目眩。实际上,LLM将整个互联网压缩成一个单一的、巨大的数学结构,该结构编码了难以想象的相互关联的信息量。这既是LLM能够完成惊人事情的原因,也是它们完全无法被理解的原因。


好的。那就是嵌入。权重(Weights)呢?


权重是代表模型不同部分之间连接强度的参数——也是调整模型行为最常见的“旋钮”类型之一。在LLM处理文本时会使用权重。


当LLM阅读一个句子(或一本书的一章)时,它首先查找所有词的嵌入,然后将这些嵌入通过一系列神经网络,这些网络被称为transformer,旨在一次性处理数据序列(如文本)。句子中的每个词都会与其所有其他词相关联进行处理。


这就是权重发挥作用的地方。嵌入代表了一个词在没有上下文时的含义。当一个词出现在特定句子中时,transformer使用权重来处理该词在新的上下文中的含义。(实际上,这涉及将每个嵌入乘以所有其他词的权重。)


偏置(Biases)呢?


偏置是另一种类型的“旋钮”,用于补充权重的效果。权重设定了模型不同部分“激发”(即向下一部分传递数据)的阈值。偏置用于调整这些阈值,以便即使嵌入值较低,也能触发活动。(偏置是加到嵌入上的值,而不是与之相乘的值。)


通过改变模型部分激发(fire)的阈值,偏置允许模型拾取那些可能被忽略的信息。想象一下,你正试图在一个嘈杂的房间里听清别人说的话。权重会最大程度地放大最响亮的声音;偏置就像监听设备上的一个旋钮,可以将较小的声音推到混音中。


这里的要点是:权重和偏置是LLM从其接收的文本中提取尽可能多信息量的两种不同方式。在这两种类型的参数在训练过程中都会被反复调整,以确保它们能做到这一点。


好的。那神经元呢?它们也是一种参数吗?


不是,神经元更多是一种组织所有这些数学运算的方式——它们是权重和偏置的容器,通过它们之间的通路网络串联在一起。它在很大程度上是松散地受到动物大脑中生物神经元的启发,一个神经元的信号会触发下一个神经元的信号,以此类推。


模型中的每个神经元都保存着一个偏置和模型所有维度的权重。换句话说,如果一个模型有4096个维度(因此其嵌入是4096个数字的列表),那么该模型中的每个神经元将持有一个偏置和4096个权重。


神经元按层排列。在大多数LLM中,一层中的每个神经元都连接到上一层中的所有神经元。像GPT-3这样的1750亿参数模型可能有大约100层,每层有数万个神经元。而且每个神经元同时运行着数万次计算。


又晕了。这涉及大量的数学运算。


是的,确实涉及大量的数学运算。


这一切是如何组合在一起的?LLM如何接收一堆词并决定吐出哪些词?


当LLM处理一段文本时,该文本的数值表示——即嵌入——会穿过模型的多个层。在每一层中,嵌入的值(那个4096个数字的列表)会经过一系列涉及模型权重和偏置(附着在神经元上)的计算,被更新很多次,直到到达最后一层。


这里的想法是,输入文本的所有含义、细微差别和上下文都被最终嵌入的值所捕获,该值经过了令人费解的一系列计算。然后使用该值来计算LLM应该吐出的下一个词。


毫不奇怪,这比听起来要复杂:模型实际上会计算其词汇表中每个词在接下来出现的可能性,并对结果进行排序。然后它会选择最靠前的那个词。(差不多吧。见下文……)


该词被附加到前面的文本块,然后整个过程重复,直到LLM计算出最有可能的下一个词是表示其输出结束的词为止。


就这些吗?


当然。嗯……


请继续。


LLM设计者还可以指定少量其他参数,称为超参数(hyperparameters)。主要的有温度(temperature)top-ptop-k


你在编吧。


温度是一个充当某种“创意旋钮”的参数。它会影响模型选择下一个词的决策。我刚才提到模型会对词汇表中的词进行排序并选择最靠前的那个。但是温度参数可以用来促使模型选择最可能的下一个词,使其输出更具事实性和相关性,或者选择一个不太可能的词,使其输出更具惊喜性,不那么像机器人。


Top-ptop-k 是另外两个控制模型下一个词选择的“旋钮”。它们是设置,迫使模型从最可能词汇池中随机选择一个词,而不是选择最靠前的那个词。这些参数会影响模型的表现风格——是古怪、有创意,还是可信、沉闷。


最后一个问题!有很多关于小型模型可以超越大型模型的传言。一个小型模型如何用更少的参数做更多的事情呢?


这是目前AI领域最热门的问题之一。它可以通过许多不同的方式发生。研究人员发现,训练数据的数量起着巨大的作用。首先,你需要确保模型看到了足够多的数据:在一个数据量太少的模型上训练的LLM将无法充分利用其所有参数,而在相同数据量上训练的小模型可能会超越它。


研究人员发现的另一个技巧是过度训练(overtraining)。向模型展示远超先前认为必要的数据量似乎可以提高它们的性能。结果是,在一个数据量很大的小型模型可以胜过在一个数据量较少的大型模型。以Meta的Llama LLM系列为例。拥有700亿参数的Llama 2是在大约2万亿个单词的文本上训练的;而拥有80亿参数的Llama 3是在大约15万亿个单词的文本上训练的。参数少得多的Llama 3是更好的模型。


第三种技术被称为蒸馏(distillation),它使用一个较大的模型来训练一个较小的模型。较小的模型不仅在原始训练数据上进行训练,还会在较大模型的内部计算输出上进行训练。其理念是,较大模型参数中来之不易的经验会“涓滴”到较小模型的参数中,从而使其得到提升。


事实上,单一的、庞大的模型时代可能已经过去了。即使是市场上最大的模型,如OpenAI的GPT-5和Google DeepMind的Gemini 3,也可以被看作是一个穿风衣的几个小型模型的组合。使用一种称为“专家混合”(mixture of experts)的技术,大型模型可以只开启处理特定文本所需的自身部分(即“专家”)。这结合了大模型的强大能力以及小型模型的速度和较低的功耗。


但这并非全部。研究人员仍在摸索如何最大限度地利用模型的参数。随着纯粹扩展带来的收益开始减少,增加参数数量似乎不再像以前那样能带来决定性的优势。关键不在于你拥有多少参数,而在于你如何利用它们。


我能看一个吗?


你想一个参数?请自便:这是一个嵌入。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区