无需 Finetune 的文本驱动视频编辑算法 FateZero

课程回放

智猩猩AI新青年讲座 2023/09/26 10:00:00

课程讲师

戚晨洋香港科技大学在读博士

指导老师为陈启峰教授；研究兴趣为图像视频处理和生成，在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文；一作论文 FateZero 在 ICCV 2023 中被评为 Oral，将在大会上做报告展示；也曾在微软亚洲研究院、腾讯 AI Lab、Google Research 实习。

戚晨洋

香港科技大学在读博士

课程提纲

文生图扩散模型在视频编辑上的挑战
常见的视频编辑方法对比
一种 Zero-shot 真实视频编辑方法 FateZero
支持风格、属性、形状等多种视频的编辑

课程简介

Diffusion model 在基于文本的图像生成方面已经取得了显着的成功。然而，由于它在生成过程中包含巨大的随机性，因此将此类模型应用于现实世界的视觉内容编辑（尤其是在视频中）仍然具有挑战性。

在 ICCV 2023 上，来自香港科技大学、腾讯 AI Lab 和中科院计算所的研究者提出了一种基于 attention 的、 zero-shot 基于文生图模型的视频编辑算法：FateZero。FateZero 无需按提示进行训练或使用用户提供的 mask，就能实现视频中风格和物体属性的编辑。该工作已被 ICCV 2023 录取为 Oral。

与之前的 DDIM-inversion 相比，FateZero 在 inversion-stage 记录中间的 attention map，从而有效地保留几何结构和时间运动信息。这些 attention map 被注入融合进编辑过程，而不是在去噪过程中重新生成。为了进一步增加生成视频的多样性，研究者通过 source prompt 的 cross-attention map 获得的二值化的图片掩码，再将改掩码用于 self-attention 混合。最后，他们还通过数值分析和问卷调查证明了方法的有效性。

9月26日上午10点，「AI新青年讲座」第226讲邀请到 FateZero 一作、香港科技大学在读博士戚晨洋参与，主讲《无需 Finetune 的文本驱动视频编辑算法 FateZero》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...