DDPM前向过程

前向扩散指的是将一个复杂分布转换成简单分布的过程 $\mathcal{T}:\mathbb{R}^d\mapsto\mathbb{R}^d$ ，即：

\mathbf{x}_0\sim p_\mathrm{complex}\Longrightarrow \mathcal{T}(\mathbf{x}_0)\sim p_\mathrm{prior}

在DDPM中，将这个过程定义为马尔可夫链，通过不断地向复杂分布中的样本 $x_0\sim p_\mathrm{complex}$ 添加高斯噪声。这个加噪过程可以表示为 $q(\mathbf{x}_t\vert\mathbf{x}_{t-1})$ ：

\begin{align} q(\mathbf{x}_t \vert \mathbf{x}_{t-1}) &= \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t\mathbf{I})\\ \mathbf{x}_t&=\sqrt{1-\beta_t}\mathbf{x}_{t-1}+\sqrt{\beta_t}\mathbf\epsilon \quad \mathbf\epsilon\sim\mathcal{N}(\mathbf{0},\mathbf{I}) \end{align}

其中， $\{\beta_t\in(0,1)\}^T_{t=1}$ ，是超参数。
从 $\mathbf{x}_0$ 开始，不断地应用 $q(\mathbf{x}_t\vert\mathbf{x}_{t-1})$ ，经过足够大的 $T$ 步加噪之后，最终得到纯噪声 $\mathbf{x}_T$ ：

\mathbf{x}_0\sim p_\mathrm{complex}\rightarrow \mathbf{x}_1\rightarrow \cdots \mathbf{x}_t\rightarrow\cdots\rightarrow \mathbf{x}_T\sim p_\mathrm{prior}

除了迭代地使用 $q(\mathbf{x}_t\vert\mathbf{x}_{t-1})$ 外，还可以使用 $q(\mathbf{x}_t\vert\mathbf{x}_0) = \mathcal{N}(\mathbf{x}_t; \sqrt{\bar{\alpha}_t} \mathbf{x}_0, (1 - \bar{\alpha}_t)\mathbf{I})$ 一步到位，证明如下（两个高斯变量的线性组合仍然是高斯变量）：

\begin{aligned} \mathbf{x}_t &= \sqrt{\alpha_t}\mathbf{x}_{t-1} + \sqrt{1 - \alpha_t}\mathbf{\epsilon}_{t-1} &\ ;\alpha_t=1-\alpha_t\\ &= \sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \bar{\mathbf{\epsilon}}_{t-2} \\ &= \dots \\ &= \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\mathbf{\epsilon} &\ ;\mathbf{\epsilon}\sim \mathcal{N}(\mathbf{0}, \mathbf{I}),\bar{\alpha}_t=\prod_{i=1}^t \alpha_i\ \end{aligned}

一般来说，超参数 $\beta_t$ 的设置满足 $0<\beta_1<\cdots<\beta_T<1$ ，则 $\bar{\alpha}_1 > \cdots > \bar{\alpha}_T\to1$ ，则 $\mathbf{x}_T$ 会只保留纯噪声部分。

DDPM逆向过程

在前向扩散过程中，实现了：

\mathbf{x}_0\sim p_\mathrm{complex}\rightarrow \mathbf{x}_1\rightarrow \cdots \mathbf{x}_t\rightarrow\cdots\rightarrow \mathbf{x}_T\sim p_\mathrm{prior}

如果能够实现将前向扩散过程反转，也就实现了从简单分布到复杂分布的映射。逆向扩散过程则是将前向过程反转，实现从简单分布随机采样样本，迭代地使用 $q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)$ ，最终生成复杂分布的样本，即：

\mathbf{x}_T\sim p_\mathrm{prior}\rightarrow \mathbf{x}_{T-1}\rightarrow \cdots \mathbf{x}_t\rightarrow\cdots\rightarrow \mathbf{x}_0\sim p_\mathrm{complex}

为了求取 $q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)$ ，使用贝叶斯公式：

\begin{align} q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)&=\frac{q(\mathbf{x}_t\vert\mathbf{x}_{t-1})q(\mathbf{x}_{t-1})}{q(\mathbf{x}_t)} \end{align}

然而，公式中 $q(x_{t-1})$ 和 $q(x_t)$ 不好求，根据DDPM的马尔科夫假设，可以为 $q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)$ 添加条件（可以证明，如果向扩散过程中的 $\beta_t$ 足够小，那么 $q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)$ 是高斯分布。）：

\begin{align} q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)&=q(\mathbf{x}_{t-1}\vert\mathbf{x}_t,\mathbf{x}_0)\\ &=\frac{q(\mathbf{x}_t\vert\mathbf{x}_{t-1},\mathbf{x}_0)q(\mathbf{x}_{t-1}\vert\mathbf{x}_0)}{q(\mathbf{x}_t\vert\mathbf{x}_0)}\\ &=\frac{q(\mathbf{x}_t\vert\mathbf{x}_{t-1})q(\mathbf{x}_{t-1}\vert\mathbf{x}_0)}{q(\mathbf{x}_t\vert\mathbf{x}_0)}\\ &=\mathcal{N}(\mathbf{x}_{t-1};\mu(\mathbf{x}_t;\theta),\sigma_t^2\mathbf I) \end{align}

其中， $\mu(x_t;\theta)$ 是高斯分布的均值， $\sigma_t$ 可以用超参数表示：

\begin{align} \mu(\mathbf{x}_t;\theta)&=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\mathbf{x}_t+ \frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar{\alpha}_t}\mathbf{x}_0\\ \sigma_t&=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\cdot\beta_t \end{align}

式中 $x_0$ 可以反用公式 $\mathbf x_t=\sqrt{\bar{\alpha}_t}\mathbf x_0+\sqrt{1-\bar{\alpha}_t}\mathbf\epsilon_t$ ：

\mathbf x_0=\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\mathbf\epsilon_t\right)

则：

\begin{align} \mu(\mathbf{x}_t;\theta)&=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\mathbf{x}_t+ \frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar{\alpha}_t}\mathbf{x}_0\\ &=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\mathbf{x}_t+ \frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar{\alpha}_t}\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\mathbf\epsilon_t\right)\\ &=\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\mathbf\epsilon_t\right) \end{align}

而在推理的时候， $\mathbf\epsilon_t$ 是未知的，所以使用神经网络进行预测。综上，逆向扩散过程：

\begin{align} q(\mathbf{x}_{t-1}\vert\mathbf{x}_t)&=\mathcal{N}(\mathbf{x}_{t-1};\mu(\mathbf{x}_t;\theta),\sigma_t^2\mathbf I)\\ &=\mathcal{N}\left(\mathbf x_{t-1};\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\mathbf\epsilon_\theta(\mathbf x_t, t)\right),\left(\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\cdot\beta_t\right)^2\mathbf I\right)\\ \mathbf x_{t-1}&=\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\mathbf\epsilon_\theta(\mathbf x_t, t)\right)+\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t\cdot\mathbf\epsilon\quad\mathbf\epsilon\sim\mathcal N(\mathbf 0, \mathbf I) \end{align}

DDPM训练方法

DDPM的训练目标是最小化训练数据的负对数似然：

\begin{align} -\log p_\theta(\mathbf x_0) &\le -\log p_\theta(\mathbf x_0) + \mathrm{KL}\left(q(\mathbf x_{1:T}\vert\mathbf x_0)\Vert p_\theta(\mathbf x_{1:T}\vert\mathbf x_0)\right) &\ ;\mathrm{KL}(\cdot\Vert\cdot)\ge 0\\ &=-\log p_\theta(\mathbf x_0)+\mathbb{E}_{\mathbf x_{1:T}\sim q(\mathbf x_{1:T}\vert\mathbf x_0)}\left[\log\frac{q(\mathbf x_{1:T}\vert\mathbf x_0)}{p_\theta(\mathbf x_{0:T})/p_\theta(\mathbf x_0)}\right]&\ ;p_\theta(\mathbf x_{1:T}\vert\mathbf x_0)=\frac{p_\theta(\mathbf x_{0:T})}{p_\theta(\mathbf x_0)}\\ &=-\log p_\theta(\mathbf x_0)+\mathbb{E}_{\mathbf x_{1:T}\sim q(\mathbf x_{1:T}\vert\mathbf x_0)}\left[\log\frac{q(\mathbf x_{1:T}\vert\mathbf x_0)}{p_\theta(\mathbf x_{0:T})}+\log p_\theta(\mathbf x_0)\right]\\ &=\mathbb{E}_{\mathbf x_{1:T}\sim q(\mathbf x_{1:T}\vert\mathbf x_0)}\left[\log\frac{q(\mathbf x_{1:T}\vert\mathbf x_0)}{p_\theta(\mathbf x_{0:T})}\right]\\ \end{align}

其中 $p_\theta(\mathbf x_{1:T}\vert\mathbf x_0)$ 是使用网络估计分布 $q$ （变分推断），定义 $\mathcal{L}_{\mathrm{VLB}}\triangleq\mathbb{E}_q(\mathbf x_{0:T})\left[\log\frac{q(\mathbf x_{1:T}\vert\mathbf x_0)}{p_\theta(\mathbf x_{0:T})}\right]\ge-\mathbb{E}_{q(\mathbf x_0)}\log p_\theta(\mathbf x_0)$ ，那么VLB是训练数据的负对数似然的上节，最小化VLB就是最小化负对数似然。继续对VLB拆分：

\begin{align} \mathcal{L}_{\mathrm{VLB}}&=\mathbb{E}_{q(\mathbf x_{0:T})}\left[\log\frac{q(\mathbf x_{1:T}\vert\mathbf x_0)}{p_\theta(\mathbf x_{0:T})}\right]\\ &=\mathbb{E}_q\left[\log\frac{\prod_{t=1}^{T}q(\mathbf x_t\vert\mathbf x_{t-1})}{p_\theta(\mathbf x_T)\prod_{t=1}^{T}p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)}\right]\\ &=\mathbb{E}_q\left[-\log p_\theta(\mathbf x_T)+\sum\limits^{T}_{t=1}\log\frac{q(\mathbf x_t\vert\mathbf x_{t-1})}{p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)}\right]\\ &=\mathbb{E}_q\left[-\log p_\theta(\mathbf x_T)+\sum\limits^{T}_{t=2}\log\frac{q(\mathbf x_t\vert\mathbf x_{t-1})}{p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)}+\log\frac{q(\mathbf x_1\vert\mathbf x_0)}{p_\theta(\mathbf x_0\vert\mathbf x_1)}\right]\\ &=\mathbb{E}_q\left[-\log p_\theta(\mathbf x_T)+\sum\limits^{T}_{t=2}\log\frac{q(\mathbf x_t\vert\mathbf x_{t-1}, \mathbf x_0)}{p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)}+\log\frac{q(\mathbf x_1\vert\mathbf x_0)}{p_\theta(\mathbf x_0\vert\mathbf x_1)}\right] &\ ;q(\mathbf x_t\vert\mathbf x_{t-1})=q(\mathbf x_t\vert\mathbf x_{t-1}, \mathbf x_0)\\ &=\mathbb{E}_q\left[-\log p_\theta(\mathbf x_T)+\sum\limits^{T}_{t=2}\log\left(\frac{q(\mathbf x_{t-1}\vert\mathbf x_{t}, \mathbf x_0)}{p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)} \frac{q(\mathbf x_t\vert\mathbf x_0)}{q(\mathbf x_{t-1}\vert\mathbf x_0)}\right)+\log\frac{q(\mathbf x_1\vert\mathbf x_0)}{p_\theta(\mathbf x_0\vert\mathbf x_1)}\right] &\ ;\text{Bayes Theorem}\\ &=\mathbb{E}_q\left[\log\frac{q(\mathbf x_T\vert\mathbf x_0)}{p_\theta(\mathbf x_T)}+\sum_{t=2}^{T}\log\frac{q(\mathbf x_{t-1}\vert\mathbf x_t, \mathbf x_0)}{p_\theta(\mathbf x_{t-1}\vert\mathbf x_t)}-\log p_\theta(\mathbf x_0\vert\mathbf x_1)\right]\\ &=\mathbb{E}_q\left[\underbrace{\mathrm{KL}(q(\mathbf x_T\vert\mathbf x_0) \Vert p_\theta(\mathbf x_T))}_{\mathcal{L}_T} + \sum_{t=2}^{T}\underbrace{\mathrm{KL}(q(\mathbf x_{t-1}\vert\mathbf x_t, \mathbf x_0) \Vert p_\theta(\mathbf x_{t-1}\vert\mathbf x_t))}_{\mathcal{L}_{t-1}}-\underbrace{\log p_\theta(\mathbf x_0\vert\mathbf x_1)}_{\mathcal{L}_0}\right]\\ &=\mathbb{E}_q\left[\mathcal{L}_T+\sum_{t=2}^{T}\mathcal{L}_{t-1}-\mathcal{L}_0\right] \end{align}

由于 $\mathbf x_T$ 是纯噪声，所以 $\mathcal{L}_T$ 是常数
对于 $\mathcal{L}_0$ ，DDPM专门设计了特殊的 $p_\theta(\mathbf x_0\vert\mathbf x_1)$
对于 $\mathcal{L}_t\triangleq\mathrm{KL}(q(\mathbf x_t\vert\mathbf x_{t+1}, \mathbf x_0) \Vert p_\theta(\mathbf x_t \vert \mathbf x_{t+1})) \quad 1\le t \le T-1$ ，是两个正态分布的KL散度，有解析解。在DDPM中，使用了简化之后的损失函数：

\begin{align} \mathcal{L}_t^{\mathrm{simple}}&=\mathbb{E}_{t\sim[1,T],\mathbf x_0,\mathbf\epsilon_t}\left[\Vert\mathbf\epsilon_t-\mathbf\epsilon_\theta(\sqrt{\bar{\alpha}_t}\mathbf x_0+\sqrt{1-\bar{\alpha}_t}\mathbf\epsilon_t,t)\Vert^2_2\right] \end{align}

DDPM总结

综上，DDPM的训练和采样/推理过程如下图所示：

扩散模型与分数生成模型的联系

对于分数： $\nabla_x\log p(x)=\nabla_x\left[-\frac{1}{2\sigma^2}(x-\mu)^2\right]=-\frac{x-\mu}{\sigma}=-\frac{(\mu+\sigma\epsilon)-\mu}{\sigma^2}=-\frac{\epsilon}{\sigma}$ 又因为： $x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon, \epsilon\sim\mathcal{N}(0,1)$ 所以： $\nabla_{x_t}\log p(x_t)=\mathbb{E}_{p(x_0)}\left[\log p(x_t|x_0)\right]=-\frac{\epsilon_\theta(x_t,t)}{\sqrt{1-\bar{\alpha}_t}}$ 因此，扩散模型的噪声估计器和score只相差一个scale： $-\frac{1}{\sqrt{1-\bar{\alpha}_t}}$ .

分类器引导采样

为了让扩散模型能够进行条件生成，需要建模数据与条件的联合分布，换句话说，需要让模型估计这个联合分布的score:

=\nabla_{x_t}\left[\log(p(y|x_t)p(x_t))\right]\\ =\nabla_{x_t}\left[\log p(y|x_t)+\log p(x_t)\right]\\ =\nabla_{x_t}\log p(y|x_t)+\nabla_{x_t}\log p(x_t)

$p(y|x_t)$ 是一个分类器，训练这样一个分类器去估计这一项

=\nabla_{x_t}\log p(y|x_t)+\nabla_{x_t}\log p(x_t)\\ \thickapprox \nabla_{x_t}\log f_\phi(y|x_t)-\frac{1}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)

这样就得到了一个新的score估计器：

\nabla_{x_t}\log p(x_t,y)\\ =-\frac{1}{\sqrt{1-\bar{\alpha}_t}}\tilde\epsilon_\theta(x_t,y,t)\\ =\nabla_{x_t}\log f_\phi(y|x_t)-\frac{1}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\\ \Leftrightarrow \tilde\epsilon_\theta(x_t,t,y)=\epsilon_\theta(x_t,t,y)-\sqrt{1-\bar{\alpha}_t}\nabla_{x_t}\log f_\phi(y|x_t)

为了设置分类器的引导强度，新增一个引导参数 $w$ :

\tilde\epsilon_\theta(x_t,t,y)=\epsilon_\theta(x_t,t,y)-w\sqrt{1-\bar{\alpha}_t}\nabla_{x_t}\log f_\phi(y|x_t)

无分类器引导采样

在分类器引导采样中，根据贝叶斯公式：

\nabla_{x_t}\log p(y|x_t)\\ =\nabla_{x_t}\log\left[\frac{p(x_t|y)p(y)}{p(x_t)}\right]\\ =\nabla_{x_t}\log p(x_t|y)+\nabla_{x_t}\log p(y) - \nabla_{x_t}\log p(x_t)\\ =\nabla_{x_t}\log p(x_t|y)-\nabla_{x_t}\log p(x_t)\\ =-\frac{1}{\sqrt{1-\bar{\alpha}_t}}\left(\epsilon(x_t,t,y)-\epsilon(x_t,t)\right)

代入分类器引导采样公式中：

\tilde\epsilon_\theta(x_t,t,y)\\ =\epsilon_\theta(x_t,t,y)-w\sqrt{1-\bar{\alpha}_t}\nabla_{x_t}\log f_\phi(y|x_t)\\ =\epsilon_\theta(x_t,t,y)+w\left[\epsilon(x_t,t,y)-\epsilon(x_t,t)\right]

即，分类器引导采样中分类器提供的方向等价为 $\epsilon(x_t,t,y)-\epsilon(x_t,t)$ ，这个方向靠近条件的方向，远离无条件方向

思考

进一步思考，这一项的数值大小 $\epsilon(x_t,t,y)-\epsilon(x_t,t)$ 标志着数据和条件对齐的程度，这是一个隐式的分类器，能够利用这个特点分类继续进一步，如果将无条件score估计网络 $\epsilon(x_t,t)$ 换成另一个条件 $y\prime$ ，即 $\epsilon(x_t,t,y\prime)$ 。则：

\epsilon(x_t,t,y)-\epsilon(x_t,t,y\prime)\\ =\left[\epsilon(x_t,t,y)-\epsilon(x_t,t)\right]-\left[\epsilon(x_t,t,y\prime)-\epsilon(x_t,t)\right]

这里出现了两个隐式分类器，第一个是衡量数据和条件 $y$ 的对齐程度，第二个是衡量数据和条件 $y\prime$ 的对齐程度。如果使用这两个隐式分类器替换之前的隐式分类器，那么就相当于在生成过程中让数据尽可能对齐条件 $y$ ，远离 $y\prime$ ，这个做法被广泛用于Stable Diffusion中（negative prompt），negative prompt一般被设置为low quality, ugly等想让模型远离提示词。既然都能够同时使用1个正提示词和1个负提示词进行引导，那么也可以实现m个提示词（隐式分类器）进行引导: Compositional visual generation with composable diffusion models

无分类器引导中的CFG值

无分类器引导采样中的 $w$ 一般被称为CFG值，越大表示越向条件靠近（可以提高样本的保真度），越小表示越向非条件靠近（可以提高样本的多样性），可以根据实际需求调节。

BTW，虽然扩散模型可以像cGAN或cVAE那样训练一个conditional model，即 $\epsilon(x_t,t,y)$ ，这个在条件 $y$ 较简单的时候（例如只是一个类别标签），一个好的backbone仍然能够实现条件生成。但是当条件变复杂的时候（例如文本，草图等），无分类器引导采样就变得很重要了，这个是目前非常主流的做法。

Reference

转载时请包括本文地址：https://dw-dengwei.cn/posts/diffusion