基于潜流扩散模型的条件图像到视频生成

课程回放

基于潜流扩散模型的条件图像到视频生成

智猩猩AI新青年讲座 2023/07/12 10:00:00

课程讲师

倪浩淼美国宾州州立大学在读博士

主要研究方向包括视频理解和医学图像处理，相关研究成果发表在CVPR、MICCAI、Medical Image Analysis等顶级会议和期刊上。

倪浩淼

美国宾州州立大学在读博士

主要研究方向包括视频理解和医学图像处理，相关研究成果发表在CVPR、MICCAI、Medical Image Analysis等顶级会议和期刊上。

课程提纲

条件图像到视频生成任务的应用及难点
视频生成相关工作及优缺点分析
潜流扩散模型LFDM
实验结果展示及未来工作探讨

课程简介

条件图像到视频生成是指基于给定的单张图像（比如一张人脸）和类别条件（比如“微笑”），生成相应的（人脸微笑）视频，其难点在于需要同时生成对应给定图像和类别条件的空间内容和时序动态。而传统方法往往直接在像素空间或者视频特征空间上生成视频，因而计算复杂度往往也比较高。

为了解决这一难题，在 CVPR 2023 上，美国宾州州立大学的研究者提出了一种潜流扩散模型 Latent Flow Diffusion Models （LFDM），通过在潜空间上根据类别条件生成光流序列去 warp 给定的图像来生成视频，从而实现了空间内容和时序动态的解耦。

LFDM 包含一个两阶段的训练框架。第一阶段是用无监督的方式来训练一个潜流自动编码机（Latent Flow Auto-Encoder），用于从训练视频中提取光流序列。第二阶段主要是利用一阶段提取的光流序列训练一个扩散模型实现光流序列的生成。LFDM 的扩散模型是在一个复杂度更低的潜流空间上操作，因而更为高效。

7月12日早10点，「AI新青年讲座」第 218 讲邀请到 LFDM 一作、美国宾州州立大学在读博士倪浩淼参与，主讲《基于潜流扩散模型的条件图像到视频生成》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...