绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
DiT架构在视频生成模型中的应用与扩展
智猩猩AI新青年讲座 2024/06/14 10:00:00
课程讲师
马鑫 莫纳什大学 在读博士

上海人工智能实验室见习研究员,研究兴趣为视频和图像生成,目前在CVPR、ICLR、Pattern Recognition等会议和期刊上发表多篇文章,所开源的代码和模型在Github上获得超过1300stars。

马鑫
莫纳什大学 在读博士

上海人工智能实验室见习研究员,研究兴趣为视频和图像生成,目前在CVPR、ICLR、Pattern Recognition等会议和期刊上发表多篇文章,所开源的代码和模型在Github上获得超过1300stars。

课程提纲
  • 视频生成的研究现状和进展
  • 基于Transformer的视频扩散生成模型Latte
  • 方法对比及结果展示
  • 文生视频模型的任务拓展
课程简介

近年来,文字转视频模型领域取得了令人瞩目的成就。但当前的文本驱动视频生成模型大多仍依赖于UNet作为核心网络架构,这一选择不仅制约了模型性能的提升,还难以实现大规模扩展。相比之下,Transformer架构因适合处理长序列数据和易于规模化而展现出独特的优势。

基于以上分析,莫纳什大学在读博士马鑫联合上海人工智能实验室的研究团队创新地提出了全球首个DiT类文生视频开源模型Latte,旨在视频生成领域率先探索构建稳定高效的超大型神经网络的新途径。相关论文为《Latte: Latent Diffusion Transformer for Video Generation》。

Latte将Latent Diffusion Transformer应用于视频生成任务,代替传统扩散模型中的U-Net架构,其主要包含预训练VAE网络和视频生成DiT架构。

VAE编码器将输入视频编码为潜在空间中的特征,解码器用于将特征映射回像素空间以生成视频。

为了充分获取输入视频的时间与空间维度的信息,提出了如图所示时空交错式、时空顺序式、串联及并联式时空注意力机制四种Transformer变体探究最优处理视频输入的方式。

Latte还对视频补丁嵌入方法、条件注入模式、时空位置编码、学习策略等进行了探索与对比,来提高视频生成的质量。

6月14日10点,智猩猩邀请到论文一作、莫纳什大学在读博士马鑫参与「智猩猩AI新青年讲座」239讲,主讲《DiT架构在视频生成模型中的应用与扩展》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...