绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
无需 Finetune 的文本驱动视频编辑算法 FateZero
智猩猩AI新青年讲座 2023/09/26 10:00:00
课程讲师

指导老师为陈启峰教授;研究兴趣为图像视频处理和生成,在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文;一作论文 FateZero 在 ICCV 2023 中被评为 Oral,将在大会上做报告展示;也曾在微软亚洲研究院、腾讯 AI Lab、Google Research 实习。

戚晨洋
香港科技大学 在读博士

指导老师为陈启峰教授;研究兴趣为图像视频处理和生成,在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文;一作论文 FateZero 在 ICCV 2023 中被评为 Oral,将在大会上做报告展示;也曾在微软亚洲研究院、腾讯 AI Lab、Google Research 实习。

课程提纲
  • 文生图扩散模型在视频编辑上的挑战
  • 常见的视频编辑方法对比
  • 一种 Zero-shot 真实视频编辑方法 FateZero
  • 支持风格、属性、形状等多种视频的编辑
课程简介

Diffusion model 在基于文本的图像生成方面已经取得了显着的成功。 然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑(尤其是在视频中)仍然具有挑战性。

在 ICCV 2023 上,来自香港科技大学、腾讯 AI Lab 和中科院计算所的研究者提出了一种基于 attention 的、 zero-shot 基于文生图模型的视频编辑算法:FateZero。FateZero 无需按提示进行训练或使用用户提供的 mask,就能实现视频中风格和物体属性的编辑。该工作已被 ICCV 2023 录取为 Oral。

与之前的 DDIM-inversion 相比,FateZero 在 inversion-stage 记录中间的 attention map,从而有效地保留几何结构和时间运动信息。 这些 attention map 被注入融合进编辑过程,而不是在去噪过程中重新生成。 为了进一步增加生成视频的多样性,研究者通过 source prompt 的 cross-attention map 获得的二值化的图片掩码,再将改掩码用于 self-attention 混合。最后,他们还通过数值分析和问卷调查证明了方法的有效性。

9月26日上午10点,「AI新青年讲座」第226讲邀请到 FateZero 一作、香港科技大学在读博士戚晨洋参与,主讲《无需 Finetune 的文本驱动视频编辑算法 FateZero》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...