
核心架构:Transformer
Transformer 由谷歌在2017年《Attention Is All You Need》论文中提出,它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖自注意力机制 来处理序列数据,实现了高度的并行化训练。
一个标准的Transformer模型主要由编码器 和解码器 堆叠而成,但在大模型的发展中,出现了两种主要变体:
- 编码器-解码器架构:原始Transformer结构,编码器理解输入,解码器生成输出。
- 代表模型:T5、BART。
- 仅解码器架构:为了生成任务而简化,模型只使用解码器堆叠,每一层都能看到之前的所有 Tokens(通过掩码实现)。
- 代表模型:GPT系列、Bloom、LLaMA,这是当前大多数生成式大语言模型的主流选择。
- 仅编码器架构:主要用于理解任务(如文本分类、语义理解)。
核心组件详解(以主流的仅解码器架构为例)
一个典型的GPT-like模型可以看作是由 N个相同的Transformer解码器层 堆叠而成,每一层都包含以下几个核心模块:
-
输入嵌入层
-
核心层:多头自注意力机制
-
层归一化与残差连接
-
输出层
工作流程(以生成文本为例)
- 分词:将输入文本(如“今天天气很好”)切分成模型能理解的 tokens([“今”, “天”, “天气”, “很”, “好”])。
- 嵌入:将 tokens 转换为向量,并加上位置信息。
- 前向传播:向量依次通过堆叠的N个 Transformer 层,在每一层,信息通过自注意力进行全局交互,再通过前馈网络进行转换,并经由残差连接和层归一化稳定传递。
- 生成:从最终的输出概率分布中,根据某种策略(如贪心、采样、Top-p采样)选取下一个 token。
- 循环:将新生成的 token 加入输入序列,重复步骤2-4,直到生成结束标记或达到长度限制,这个过程称为自回归生成。
关键特性总结
- 并行化训练:由于自注意力不依赖序列顺序,训练时可以对整个序列并行计算,极大提升了效率。
- 强大的长程依赖捕捉能力:自注意力机制理论上可以捕捉任意距离的依赖。
- 可扩展性:模型的能力随着参数量(层数、隐藏维度、注意力头数) 和训练数据量的增大而显著提升,这被总结为 “缩放定律”。
- 通用接口:Transformer架构统一了多种任务(文本、代码、图像多模态),都通过“序列到序列”或“序列生成”的方式处理。
现代大模型的演进趋势
在基础Transformer之上,现代大模型还在以下方面进行优化:
- 更高效的注意力机制:如旋转位置编码,更好地处理长文本。
- 激活函数:如 SwiGLU,提升性能。
- 归一化:如 RMSNorm,简化计算。
- 混合专家:如 Mixtral-8x7B,让不同的专家处理不同的输入,在增加参数总量的同时不增加计算成本。
大模型的基础结构是一个由 Transformer层 堆叠而成的深度神经网络,其核心是自注意力机制,并通过残差连接和层归一化保证其稳定训练,正是这一优雅而强大的设计,催生了当前人工智能的浪潮。
标签: Transformer LLM