绑定手机号
确认绑定
条件图像到视频生成是指基于给定的单张图像(比如一张人脸)和类别条件(比如“微笑”),生成相应的(人脸微笑)视频,其难点在于需要同时生成对应给定图像和类别条件的空间内容和时序动态。而传统方法往往直接在像素空间或者视频特征空间上生成视频,因而计算复杂度往往也比较高。
为了解决这一难题,在 CVPR 2023 上,美国宾州州立大学的研究者提出了一种潜流扩散模型 Latent Flow Diffusion Models (LFDM),通过在潜空间上根据类别条件生成光流序列去 warp 给定的图像来生成视频,从而实现了空间内容和时序动态的解耦。
LFDM 包含一个两阶段的训练框架。第一阶段是用无监督的方式来训练一个潜流自动编码机(Latent Flow Auto-Encoder),用于从训练视频中提取光流序列。第二阶段主要是利用一阶段提取的光流序列训练一个扩散模型实现光流序列的生成。LFDM 的扩散模型是在一个复杂度更低的潜流空间上操作,因而更为高效。
7月12日早10点,「AI新青年讲座」第 218 讲邀请到 LFDM 一作、美国宾州州立大学在读博士倪浩淼参与,主讲《基于潜流扩散模型的条件图像到视频生成》。