- 课程回放
- 视频修复的应用场景及挑战
- 基于视觉Transformer模型的视频修复
- 轻量化光流引导的时空Transformer视频修复模型
- 在视频物体去除和去水印的表现
曾看过《哈利·波特》系列电影的朋友们都知道,哈利有一件“祖传”的魔法道具:隐形斗篷,只要一穿上它就可以在众人面前瞬间消失,而这些出现在电影大片里的“隐身魔法”可以通过AI视频修复算法轻松实现。除了应用于视频物体去除任务上外,视频修复在视频水印去除以及视频去抖动等任务当中也有着广泛应用。
视频修复旨在以时空连续的方式填补视频中的破损区域,由于破损区域的不确定性,视频修复任务的模型往往需要具备强大的感受野。因此,具备卓越的长距离特征建模能力的视觉Transformer成为了一个极具前景的视频修复可选方案。
然而,基于视觉Transformer模型的视频修复研究还不是很完善,主要有以下三个难点:首先,视觉Transformer模型的性能受注意力机制的准确程度影响,不准确的注意力匹配会造成Transformer生成的视频修复性能下降;其次,视觉Transformer在恢复高频的能力有限,并且恢复出的视频难以保证令人满意的时空连贯性;最后,Transformer的全局注意力机制使得其计算和显存资源的消耗十分巨大。
基于上述难点,中国科学技术大学在读博士张凯栋等人在ECCV 2022上提出了为视频修复任务定制的光流引导时空Transformer模型。该模型针对难点一,使用了一个轻量化网络修复光流,然后将修补后的光流当做先验送入Transformer中影响注意力匹配机制;针对难点二,采用光流引导视频的信息传播,然后再使用Transformer填补余下部分,这样被光流引导做信息传播的区域可以确保高频区域不丢失,并且也一定程度缓解最终修复视频的时间连续性;针对难点三,摒弃了传统的全局匹配注意力机制,转而将时间和空间注意力进行解耦并且针对空间注意力设计了局部和全局注意力结合的模块以进一步提升网络效率。
10月14日晚7点,「AI新青年讲座」第164讲邀请到中国科学技术大学在读博士张凯栋参与,主讲《用于视频修复的光流引导时空Transformer》。