多模态大模型

本模块探讨多模态大模型理论基础与前沿技术。

主要内容

多模态的第一步是让模型“看懂”图像。

ViT (Vision Transformer)： 彻底理解图像如何 Patch 化、Linear Projection、以及 [CLS] Token 的作用。
MAE (Masked Autoencoders)： 学习视觉领域的“自监督预训练”，理解如何通过遮盖图像块来让模型学习视觉特征。
重点关注： 为什么图像需要 2D Position Embedding？为什么 ViT 在大规模数据下才强于 CNN？

这是多模态的灵魂，面试 50% 的问题都在这里。

CLIP (Contrastive Language-Image Pretraining)： 深度拆解双塔架构、对比学习损失函数（InfoNCE）、以及大规模图文对齐的意义。
BLIP / BLIP-2 (Q-Former)： 学习如何通过一个可学习的 Query Transformer 把海量的视觉特征“压缩”成 LLM 能听懂的几个 Token。
重点关注： 对比学习中的正负采样策略；如何解决图文数据中的噪声问题。

利用你已有的扩散模型知识，完成架构迁移。

DiT (Diffusion Transformer)： 重点分析 Adaptive LayerNorm (adaLN) 和 Cross-Attention 在注入条件（如文本、时间步）时的差异。
Stable Diffusion 3 / Flux (Flow Matching + Transformer)： 你已经熟悉 FM，现在要看它如何在 Transformer 架构上实现超高画质生成。
重点关注： 为什么 Transformer 架构比 UNet 更适合多模态生成？（提示：参数扩展性 Scaling Law）。

这是目前最火的工程实践，即“给 GPT 装上眼睛”。

LLaVA / InstructBLIP： 理解 Projection Layer（线性投影层）的极简美学——如何只训练一个矩阵就打通视觉和文本。
Multimodal Instruction Tuning： 学习如何构造“图片+指令”的数据对，让模型不仅能看图，还能听懂复杂的人类指令。
重点关注： 视觉 Token 数量爆炸问题（一张图 256 个 Token 怎么优化？）。

ControlNet / IP-Adapter： 研究如何在不破坏预训练模型的情况下，注入几何控制（Canny/Depth）或风格控制。
Sora / Video Generation： 学习时序注意力（Temporal Attention）或 3D 卷积，理解视频生成如何保持时空一致性。