从扩散模型到流匹配

graph TD
    %% 阶段 1
    A["<b>1. 扩散模型 (Diffusion)</b><br/>预测噪声<br/>SDE 随机弯曲轨迹"] 

    %% 阶段 2
    B["<b>2. 概率流 (Prob. Flow)</b><br/>SDE 转 ODE<br/>确定性采样，轨迹仍弯曲"]

    %% 阶段 3
    C["<b>3. 条件流匹配 (CFM)</b><br/>预测速度<br/>回归目标简化，支持直线路径"]

    %% 阶段 4
    D["<b>4. 修正流 (Rectified Flow)</b><br/>Reflow 迭代拉直<br/>(Flux/SD3)"]

    %% 阶段 5
    E["<b>5. 模型蒸馏 (Distillation)</b><br/>学习跳跃映射<br/>(CM/DMD)"]

    %% 阶段 6
    F["<b>6. 模型迁移 (Transfer)</b><br/>2D 先验跨模态应用<br/> (DreamFusion/SDS)"]

    %% 连线关系
    A -->|确定性轨迹| B
    B -->|视角转换| C
    C -->|轨迹直线化| D
    D -->|采样加速| E
    D -->|跨模态迁移| F

    %% 样式美化
    style A fill:#fdf2f2,stroke:#f87171,stroke-width:2px
    style B fill:#fff7ed,stroke:#fb923c,stroke-width:2px
    style C fill:#eff6ff,stroke:#60a5fa,stroke-width:2px
    style D fill:#f5f3ff,stroke:#a78bfa,stroke-width:2px
    style E fill:#f0fdf4,stroke:#4ade80,stroke-width:2px
    style F fill:#fafafa,stroke:#a3a3a3,stroke-width:2px

扩散模型

核心逻辑：模仿物理世界中的扩散现象。通过向数据（\(x_0\)）不断注入高斯噪声，直到其变成纯噪声（\(x_T\)），再让神经网络学习这个过程的逆变换。
演进意义：打破了 GAN 训练不稳定的僵局。
训练目标：去噪 (Denoising)。模型本质上是在预测“噪声 \(\epsilon\)”，或者说是学习分数的引力场。
痛点：采样过程是随机的（SDE），且轨迹弯曲，导致采样步数极多。

概率流

核心逻辑：宋佳（Yang Song）等人证明，每一个随机扩散过程都对应一个唯一的确定性轨迹（ODE）。
演进意义：实现了确定性采样。这意味着同一个噪声点对应唯一的生成图像，且支持“反演（Inversion）”。
关键转换：将 SDE 的随机行走简化为 ODE 的平滑曲线。
痛点：轨迹依旧是弯曲的，且物理量（Score）在数值上不直观，难以直接优化。

条件流匹配

核心逻辑：不再从扩散公式里推导 ODE，而是直接定义一个速度场（Vector Field）。
演进意义：提出了条件期望的训练技巧，解决了边际场难以观测的数学难题。
核心公式：\(L_{CFM} = \mathbb{E} \| v_\theta(x_t, t) - u_t(x|x_1) \|^2\)。
突破：这让训练生成模型变成了一个简单的“线性回归”问题。

修正流

核心逻辑：在 CFM 的基础上，旗帜鲜明地提出了 1-Rectified（直线插值） 和 Re-Flow（重流）。
演进意义：通过迭代拉直技术，将复杂的弯曲轨迹彻底变成直线。
工程贡献：由于轨迹是直的，欧拉法单步采样的误差被降到最低，这直接催生了 SD3 和 Flux 的成功。

模型蒸馏

核心逻辑：当模型学会了走直线后，下一步就是“跳跃”。
技术分路：
一致性模型 (CM/CTM)：强迫模型学习轨迹上的点到终点的映射，追求 1 步成像。
分布匹配 (DMD/VSD)：利用 GAN 损失或分数对齐，不再死磕路径，只求结果分布的一致性。
演进意义：将推理成本降低了两个数量级。

模型迁移

核心逻辑：将已有的高性能 2D 生成能力迁移到 3D、视频或其他模态。
代表方案：DreamDiffusion (SDS)。
演进意义：利用流匹配/扩散模型的先验作为“老师”，去指导新领域的生成（如 3D 建模中的分数蒸馏）。这证明了流模型不仅是生成器，更是强大的通用分布描述器。

最后更新：2026年3月