利用多级框架和多解码器架构提高扩散模型训练效率

课程回放

智猩猩AI新青年讲座 2024/05/28 10:00:00

课程讲师

张挥杰密歇根大学安娜堡分校在读博士

师从曲庆。研究方向为生成式模型和扩散模型，具体包括提升扩散模型的训练效率、理解扩散模型的可重复性与一致性。相关成果发表在CVPR 2024、ICML 2024。

张挥杰

密歇根大学安娜堡分校在读博士

课程提纲

扩散模型低效原因分析
多阶段框架与定制化多解码器架构设计思路
扩散模型改进后的性能提升表现
实验结果对比与未来工作展望

课程简介

近来，扩散模型已经成为强大的生成建模工具，在图像生成、视频生成等各种应用中都有着出色的表现。然而，尽管扩散模型具备卓越的生成能力，但其训练和采样速度较慢，限制了它们在实时生成任务中的使用。

扩散模型在效率方面主要面临着以下难题：

（1）现有的扩散模型中存在大量参数冗余；

（2）由于不同噪声水平的梯度不同，导致训练效率低下。

为了实现计算资源的高效分配，从而提升扩散模型的训练效率，密歇根大学安娜堡分校在读博士张挥杰提出了一种基于多级框架和多解码器架构的扩散模型。相关论文《Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures》收录于CVPR 2024。

改进的扩散模型主要有两个核心组件。

核心组件一：多解码器U-Net架构。包含一个可在所有阶段中共享的通用编码器，及针对每个时间阶段单独定制的解码器。这种方法(图(c))比在整个训练过程中使用单一架构(图(a))要高效得多。并且与以往每个子区间完全分离的结构(图(b))相比，可以减轻由不同梯度效应引起的阶段之间的干扰。

核心组件二：提出了一种新的时间步长聚类方法来选择阶段划分的最优间隔点。将时间步长聚类为多个具有特定参数的阶段。在这些不同的阶段中，采用定制化的多解码器U-Net网络架构与通用的共享编码器相融合。

5月28日10点，智猩猩邀请到论文一作、密歇根大学安娜堡分校在读博士张挥杰参与「智猩猩AI新青年讲座」236讲，主讲《利用多级框架和多解码器架构提高扩散模型训练效率》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...