跳转至

LiHuaMao 的小站

工程与优化

工程与优化

本模块聚焦大模型训练和部署中的工程实践与优化技术。

主要内容

分布式训练

数据并行（Data Parallelism）
模型并行（Model Parallelism）
流水线并行（Pipeline Parallelism）
张量并行（Tensor Parallelism）
Zero Redundancy Optimizer（ZeRO）

模型压缩

知识蒸馏（Knowledge Distillation）
模型剪枝（Pruning）
量化（Quantization）
PTQ（Post-Training Quantization）
QAT（Quantization-Aware Training）
低秩分解（Low-Rank Factorization）

推理优化

KV Cache 优化
批处理与连续批处理
PagedAttention
Speculative Decoding
模型部署框架（TensorRT、vLLM、TGI）

训练优化

混合精度训练（Mixed Precision）
梯度累积（Gradient Accumulation）
梯度检查点（Gradient Checkpointing）
优化器选择（Adam、AdamW、Lion）

常见面试问题

如何进行大模型的分布式训练？
ZeRO 的三个阶段分别做了什么？
量化技术如何降低模型大小？
KV Cache 是什么，如何优化？
Flash Attention 为什么快？

学习路径

理解分布式训练的基本概念
掌握常用的优化技术
了解主流的部署框架
实践：搭建简单的训练和推理流程