利用直线概率流加速Stable Diffusion的训练推理

课程回放

智猩猩AI新青年讲座 2024/06/18 10:00:00

课程讲师

刘星超德州大学奥斯汀分校 24届博士

师从刘强教授。本科毕业于北京航空航天大学自动化专业。研究兴趣是生成式模型的底层原理及对生成式模型框架的改进。在ICML、NeurIPS、ICLR等机器学习顶级会议上发表十余篇文章，并多次担任JMLR等顶级期刊审稿人。

刘星超

德州大学奥斯汀分校 24届博士

课程提纲

扩散模型加速算法的研究现状
基于直线概率流的快速生成模型Rectified Flow
扩展至Stable Diffusion的一步生成模型InstaFlow
实验结果分析与前景展望

课程简介

近些年，基于扩散模型的文本到图像的生成展现出了卓越的质量，但其总体上推导的难度较大，且在推理时通常需要进行几十步采样才能得到较为理想的结果。这种采样方式不仅会降低生成模型的效率，还容易受到噪声和误差的影响，从而造成图像生成的质量低下。以往算法试图通过蒸馏来提高采样速度并减少计算成本，但是都未能达到想要的效果。

为了解决以上问题，德州大学奥斯汀分校24届博士刘星超提出了一个快速、一步生成图像的模型InstaFlow，达到了生成图像的质量接近Stable Diffusion且显著减少计算资源需求的目的。相关论文为《Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow》、《InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation》，分别收录于ICLR 2023和ICLR 2024。

Rectified Flow基于一个简单的常微分方程(ODE)，降低了推理难度，解决了使用非配对数据点学习两个分布之间传输映射的问题。

Rectified Flow通过学习ODE模型来模拟从π0到π1的传输过程。其中，ODE模型被训练以尽可能遵循沿π0和π1中抽取的点之间的直线路径前进。与传统的扩散模型相比，这种直线化的概率流动能够加快的生成速度。

InstaFlow将Stable Diffusion转化成一个超快速的一步生成模型。生成过程包括以下三个步骤：

首先，从预训练的Stable Diffusion模型中生成包含文本、噪声和图像的三元组。

其次，将生成的三元组训练成一个2-Rectified Flow直线化的生成概率流动模型。

最后，从2-Rectified Flow模型中蒸馏出InstaFlow模型，直接将噪声图像映射为原始图像。

6月18日10点，智猩猩邀请到论文一作、德州大学奥斯汀分校24届博士刘星超参与「智猩猩AI新青年讲座」240讲，主讲《利用直线概率流加速Stable Diffusion的训练推理》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问