Transformer中的Token之旅：究竟发生了什么-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://machinelearningmastery.com/the-journey-of-a-token-what-really-happens-inside-a-transformer/

原文作者：Jason Brownlee

Token在Transformer模型中的旅程是一个引人入胜的过程，它从一个简单的输入（如一个单词或子词）开始，经过一系列复杂的转换，最终成为模型理解和生成文本的基础。本文旨在深入探讨这个旅程的每一个关键阶段。

本文讨论了以下内容：

Transformer如何处理Token的输入。
Token在Transformer中的旅程。
Transformer中Token的演变。

Transformer如何处理Token

Transformer模型处理文本时，首先需要将文本分解为离散的单元，即Token。这些Token随后被转换为数字表示，以便模型能够进行计算。

Tokenization（分词）

输入文本首先经过分词化过程。这通常涉及将文本分割成单词、子词（sub-words）或字符。子词分词化（如Byte Pair Encoding，BPE）在现代大型语言模型（LLM）中尤为流行，因为它能在处理罕见词汇时保持词汇表大小的可控性。

Embedding（词嵌入）

每个Token随后被映射到一个固定维度的向量，称为词嵌入。这个向量捕获了Token的语义信息。例如，在GPT模型中，一个Token可能被转换为一个768维的向量。

Positional Encoding（位置编码）

由于Transformer架构本身不包含循环或卷积操作，它天然地缺乏对序列顺序的感知。为了解决这个问题，位置编码被添加到词嵌入中，为模型提供关于Token在序列中位置的信息。

位置编码通常通过一组固定的数学函数（如正弦和余弦函数）生成，与词嵌入相加，形成Token的初始表示，其中包含了语义和位置信息。

Token在Transformer中的旅程

一旦Token有了包含语义和位置信息的初始向量表示，它们就会进入Transformer的核心堆栈，通常由多个编码器（Encoder）或解码器（Decoder）层组成。

Encoder/Decoder Stack（编码器/解码器堆栈）

一个典型的Transformer模型包含多个编码器层和/或解码器层。Token的向量表示会逐层通过这个堆栈进行处理。

Self-Attention（自注意力机制）

这是Transformer的核心。在自注意力层中，每个Token会与其他所有Token进行交互。模型计算一个“注意力分数”，表示当前Token应该对序列中其他Token给予多少关注。

这个过程涉及到计算查询（Query, Q）、键（Key, K）和值（Value, V）向量，然后使用以下公式计算输出：

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

对于每个Token，其新的表示是其值向量（V）与基于Q和K计算出的注意力权重的加权和。这使得Token的表示能够编码其与序列中其他Token的上下文关系。

Multi-Head Attention（多头注意力）

为了允许模型在不同的表示子空间（subspaces）中学习不同的关系，自注意力机制被分成多个“头”。每个头独立地执行注意力计算，学习不同方面的信息。最后，所有头的输出被拼接（concatenated）起来，并通过一个线性层进行投影，形成最终的上下文表示。

Feed-Forward Network（前馈网络）

注意力层的输出会传递给一个简单的前馈网络（通常是两个线性层，中间有一个非线性激活函数，如ReLU或GELU）。这个网络对每个Token的表示独立地进行进一步的非线性转换，有助于模型学习更复杂的特征。

Residual Connections and Normalization（残差连接与归一化）

在注意力层和前馈网络之后，都会应用残差连接（Residual Connections）和层归一化（Layer Normalization）。残差连接有助于梯度在深层网络中流动，防止梯度消失；层归一化则稳定了每一层的输入分布，加速训练。

Transformer中Token的演变

随着Token在Transformer堆栈中逐层传递，它的向量表示会持续演化。每一层都会根据模型从前一层中学到的信息，更新和丰富Token的上下文理解。

从局部到全局的理解

在浅层，Token的表示可能主要关注其直接的上下文词汇。随着层级的加深，Token的表示会聚合来自更远距离Token的信息，形成越来越全局化和抽象化的语义理解。

最终输出

在Transformer堆栈的最后一层，Token的最终表示包含了整个输入序列的复杂上下文信息。这些最终的Token表示随后被用于模型的最终任务，例如：

在语言模型中，它们通过一个线性层和Softmax层来预测下一个Token。
在机器翻译中，它们被解码器用于生成目标语言的输出序列。

总而言之，Transformer中的Token之旅是一个从简单的词汇标识到深度上下文向量表示的转化过程，自注意力机制是驱动这种转化的核心引擎。

理解Token如何演变，是掌握现代AI模型工作原理的关键一步。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Transformer中的Token之旅：究竟发生了什么