- 课程回放
- 扩散模型加速算法的研究现状
- 基于直线概率流的快速生成模型Rectified Flow
- 扩展至Stable Diffusion的一步生成模型InstaFlow
- 实验结果分析与前景展望
近些年,基于扩散模型的文本到图像的生成展现出了卓越的质量,但其总体上推导的难度较大,且在推理时通常需要进行几十步采样才能得到较为理想的结果。这种采样方式不仅会降低生成模型的效率,还容易受到噪声和误差的影响,从而造成图像生成的质量低下。以往算法试图通过蒸馏来提高采样速度并减少计算成本,但是都未能达到想要的效果。
为了解决以上问题,德州大学奥斯汀分校24届博士刘星超提出了一个快速、一步生成图像的模型InstaFlow,达到了生成图像的质量接近Stable Diffusion且显著减少计算资源需求的目的。相关论文为《Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow》、《InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation》,分别收录于ICLR 2023和ICLR 2024。
Rectified Flow基于一个简单的常微分方程(ODE),降低了推理难度,解决了使用非配对数据点学习两个分布之间传输映射的问题。
Rectified Flow通过学习ODE模型来模拟从π0到π1的传输过程。其中,ODE模型被训练以尽可能遵循沿π0和π1中抽取的点之间的直线路径前进。与传统的扩散模型相比,这种直线化的概率流动能够加快的生成速度。
InstaFlow将Stable Diffusion转化成一个超快速的一步生成模型。生成过程包括以下三个步骤:
首先,从预训练的Stable Diffusion模型中生成包含文本、噪声和图像的三元组。
其次,将生成的三元组训练成一个2-Rectified Flow直线化的生成概率流动模型。
最后,从2-Rectified Flow模型中蒸馏出InstaFlow模型,直接将噪声图像映射为原始图像。
6月18日10点,智猩猩邀请到论文一作、德州大学奥斯汀分校24届博士刘星超参与「智猩猩AI新青年讲座」240讲,主讲《利用直线概率流加速Stable Diffusion的训练推理》。
![](https://oss.zhidx.com/gtic/21/03/6050cd8e1ff99-001.png)