跳转至

LiHuaMao 的小站

模型架构

模型架构

本模块涵盖大模型架构相关的核心知识点。

主要内容

Transformer 架构

自注意力机制（Self-Attention）
多头注意力（Multi-Head Attention）
位置编码（Positional Encoding）
前馈神经网络（FFN）

经典模型

BERT：双向编码器表示
GPT 系列：自回归语言模型
T5：Text-to-Text 框架
LLaMA：开源大语言模型

架构改进

Flash Attention：高效注意力计算
Sparse Attention：稀疏注意力
Mixture of Experts (MoE)：专家混合模型
长上下文扩展：RoPE、ALiBi 等

常见面试问题

Transformer 的优缺点是什么？
BERT 和 GPT 的区别？
如何解决长序列建模问题？
注意力机制的复杂度如何优化？

学习路径

掌握 Transformer 基础
理解各类模型的设计思想
了解最新的架构改进
实践：从零实现简单的 Transformer

符号约定

\(B\) (Batch Size)： 一次处理多少个句子（比如一次处理 4 个人的对话）。
\(L\) 或 \(N\) (Sequence Length)： 序列长度。一个句子有多少个 Token（比如 4096 个词）。这是最关键的变量。
\(D\) 或 \(d_{model}\) (Embedding Dimension)： 模型维度。一个词向量的长度（比如 Llama-7B 是 4096）。
\(H\) (Heads)： 多头注意力的头数（比如 32 个头）。
\(d_k\) 或 \(d_{head}\)： 每个头的维度。通常 \(d_k = D / H\)（比如 \(4096 / 32 = 128\)）。