📢 转载信息
原文链接:https://machinelearningmastery.com/the-journey-of-a-token-what-really-happens-inside-a-transformer/
原文作者:Jason Brownlee
Token在Transformer模型中的旅程是一个引人入胜的过程,它从一个简单的输入(如一个单词或子词)开始,经过一系列复杂的转换,最终成为模型理解和生成文本的基础。本文旨在深入探讨这个旅程的每一个关键阶段。
本文讨论了以下内容:
- Transformer如何处理Token的输入。
- Token在Transformer中的旅程。
- Transformer中Token的演变。
Transformer如何处理Token
Transformer模型处理文本时,首先需要将文本分解为离散的单元,即Token。这些Token随后被转换为数字表示,以便模型能够进行计算。
Tokenization(分词)
输入文本首先经过分词化过程。这通常涉及将文本分割成单词、子词(sub-words)或字符。子词分词化(如Byte Pair Encoding,BPE)在现代大型语言模型(LLM)中尤为流行,因为它能在处理罕见词汇时保持词汇表大小的可控性。
Embedding(词嵌入)
每个Token随后被映射到一个固定维度的向量,称为词嵌入。这个向量捕获了Token的语义信息。例如,在GPT模型中,一个Token可能被转换为一个768维的向量。
Positional Encoding(位置编码)
由于Transformer架构本身不包含循环或卷积操作,它天然地缺乏对序列顺序的感知。为了解决这个问题,位置编码被添加到词嵌入中,为模型提供关于Token在序列中位置的信息。
位置编码通常通过一组固定的数学函数(如正弦和余弦函数)生成,与词嵌入相加,形成Token的初始表示,其中包含了语义和位置信息。
Token在Transformer中的旅程
一旦Token有了包含语义和位置信息的初始向量表示,它们就会进入Transformer的核心堆栈,通常由多个编码器(Encoder)或解码器(Decoder)层组成。
Encoder/Decoder Stack(编码器/解码器堆栈)
一个典型的Transformer模型包含多个编码器层和/或解码器层。Token的向量表示会逐层通过这个堆栈进行处理。
Self-Attention(自注意力机制)
这是Transformer的核心。在自注意力层中,每个Token会与其他所有Token进行交互。模型计算一个“注意力分数”,表示当前Token应该对序列中其他Token给予多少关注。
这个过程涉及到计算查询(Query, Q)、键(Key, K)和值(Value, V)向量,然后使用以下公式计算输出:
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
对于每个Token,其新的表示是其值向量(V)与基于Q和K计算出的注意力权重的加权和。这使得Token的表示能够编码其与序列中其他Token的上下文关系。
Multi-Head Attention(多头注意力)
为了允许模型在不同的表示子空间(subspaces)中学习不同的关系,自注意力机制被分成多个“头”。每个头独立地执行注意力计算,学习不同方面的信息。最后,所有头的输出被拼接(concatenated)起来,并通过一个线性层进行投影,形成最终的上下文表示。
Feed-Forward Network(前馈网络)
注意力层的输出会传递给一个简单的前馈网络(通常是两个线性层,中间有一个非线性激活函数,如ReLU或GELU)。这个网络对每个Token的表示独立地进行进一步的非线性转换,有助于模型学习更复杂的特征。
Residual Connections and Normalization(残差连接与归一化)
在注意力层和前馈网络之后,都会应用残差连接(Residual Connections)和层归一化(Layer Normalization)。残差连接有助于梯度在深层网络中流动,防止梯度消失;层归一化则稳定了每一层的输入分布,加速训练。
Transformer中Token的演变
随着Token在Transformer堆栈中逐层传递,它的向量表示会持续演化。每一层都会根据模型从前一层中学到的信息,更新和丰富Token的上下文理解。
从局部到全局的理解
在浅层,Token的表示可能主要关注其直接的上下文词汇。随着层级的加深,Token的表示会聚合来自更远距离Token的信息,形成越来越全局化和抽象化的语义理解。
最终输出
在Transformer堆栈的最后一层,Token的最终表示包含了整个输入序列的复杂上下文信息。这些最终的Token表示随后被用于模型的最终任务,例如:
- 在语言模型中,它们通过一个线性层和Softmax层来预测下一个Token。
- 在机器翻译中,它们被解码器用于生成目标语言的输出序列。
总而言之,Transformer中的Token之旅是一个从简单的词汇标识到深度上下文向量表示的转化过程,自注意力机制是驱动这种转化的核心引擎。
理解Token如何演变,是掌握现代AI模型工作原理的关键一步。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区