经典模型

这三个模型代表了 Transformer 的三种基本应用形态：

模型	架构类型	核心目标	为什么面试常考？
BERT	Encoder-only	理解 (Understanding)	双向可见。擅长分类、标注。提出 MLM (掩码) 预训练任务。
GPT (1/2/3)	Decoder-only	生成 (Generative)	单向可见。奠定了自回归生成的霸主地位，是 LLM 的基石。
T5	Encoder-Decoder	转换 (Text-to-Text)	全能型。把所有 NLP 任务（翻译、分类、问答）都统一成“文本到文本”。

在 2018-2019 年左右，大家并没有预见到今天“一个模型统治一切”的局面。当时的权衡点在于：你想让模型更擅长“考试”还是“写作”？

BERT

GPT

T5

为什么 Decoder-only 最终统治了世界？

这是一个典型的“大力出奇迹”改变了算法审美。现在几乎所有千亿级以上的大模型（GPT-4, Llama 3, Qwen）全部采用 Decoder-only。原因有三点：

A. 零样本（Zero-shot）能力的爆发

大家发现，当 Decoder 模型参数量大到一定程度时，它不再只是在“接龙”，而是产生了一种“逻辑涌现”。只要你把任务描述（Prompt）喂给它，它就能理解并生成答案。

B. 训练效率与 Scaling Law（规模法则）

计算效率： 在处理极长文本时，Decoder-only 架构的计算图更简单，且在推理时可以使用 KV Cache 技术极大提升速度。
参数效率： 实验证明，在相同的计算量（FLOPs）下，Decoder-only 模型在长程建模和逻辑推理上的表现，比 Encoder-Decoder 这种“分工明确”的结构上限更高。

C. 统一的任务范式

现在所有的 AI 任务都被统一成了“对话”。

LLaMA 是目前开源界的“圣经”，几乎所有的国产大模型（如 Qwen, Baichuan, Yi）都是在 LLaMA 架构基础上微调或改进的。

LLaMA 对原始 Transformer 的三大修改：

RMSNorm (Root Mean Square Layer Normalization):

RoPE (Rotary Positional Embedding):

SwiGLU 激活函数：

Qwen 是面试中的热点，特别是 Qwen 2 / 2.5。相比于 LLaMA，它有几个非常明显的竞争优势，你可以作为“加分项”回答：