- 课程回放
指导老师为陈启峰教授;研究兴趣为图像视频处理和生成,在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文;一作论文 FateZero 在 ICCV 2023 中被评为 Oral,将在大会上做报告展示;也曾在微软亚洲研究院、腾讯 AI Lab、Google Research 实习。
- 文生图扩散模型在视频编辑上的挑战
- 常见的视频编辑方法对比
- 一种 Zero-shot 真实视频编辑方法 FateZero
- 支持风格、属性、形状等多种视频的编辑
Diffusion model 在基于文本的图像生成方面已经取得了显着的成功。 然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑(尤其是在视频中)仍然具有挑战性。
在 ICCV 2023 上,来自香港科技大学、腾讯 AI Lab 和中科院计算所的研究者提出了一种基于 attention 的、 zero-shot 基于文生图模型的视频编辑算法:FateZero。FateZero 无需按提示进行训练或使用用户提供的 mask,就能实现视频中风格和物体属性的编辑。该工作已被 ICCV 2023 录取为 Oral。
与之前的 DDIM-inversion 相比,FateZero 在 inversion-stage 记录中间的 attention map,从而有效地保留几何结构和时间运动信息。 这些 attention map 被注入融合进编辑过程,而不是在去噪过程中重新生成。 为了进一步增加生成视频的多样性,研究者通过 source prompt 的 cross-attention map 获得的二值化的图片掩码,再将改掩码用于 self-attention 混合。最后,他们还通过数值分析和问卷调查证明了方法的有效性。
9月26日上午10点,「AI新青年讲座」第226讲邀请到 FateZero 一作、香港科技大学在读博士戚晨洋参与,主讲《无需 Finetune 的文本驱动视频编辑算法 FateZero》。