- 课程回放
- 视频插帧算法的应用
- 主流视频插帧算法及局限性
- 面向任务的光流蒸馏损失及视频插帧算法IFRNet
- IFRNet插帧精度与可视化效果
「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。
人们对画质的追求在相当长的一段时间里一直是更大的屏幕和更好的分辨率,现阶段4k电视逐渐普及,8k屏幕也蓄势待发,这已经越来越逼近人类眼睛的极限。然而视频的帧率却并不是那么受待见,电影的分辨率是24帧,教科书告诉我们这是人类肉眼能感受的最高帧率,但是我们打游戏的时候才发现,60帧才刚刚能达到流畅的程度,而电竞比赛甚至会要求144帧乃至240帧。
更高帧率的视频制作也意味着更高的成本,那么,对于现有海量24帧的电影和30帧的电视剧资源是否也有办法实现高帧率呢?答案是:有的,可以通过插帧的方式实现。原理很简单,就是把现有的低帧率影片的每一帧都当做关键帧,通过计算两帧之间的差异性作为过渡帧实现插帧,达到低帧变高帧。
目前流行的视频插帧算法通常依赖于复杂的网络结构,具有大量的模型参数与较高的推理延迟,这限制了算法在大量实时应用中的使用。腾讯优图实验室在CVPR 2022中提出了一种高效、只包含一个encoder-decoder结构的视频插帧网络IFRNet,以实现快速的中间帧合成。
IFRNet首先对输入的两帧图像提取特征金字塔,然后联合refine双向中间光流场和一个具有较强表示能力的中间特征,直到恢复到输入分辨率并得到想要的输出。这个逐渐refine的中间特征不仅能够促进中间光流估计,而且能够补偿缺失的纹理细节,这使得IFRNet不需要额外的纹理合成网或refinement模块。
为了充分释放IFRNet的潜能,他们还进一步提出一个新颖的面向任务的光流蒸馏损失函数,来使得网络集中注意力学习对插帧有益的运动信息。与此同时,一个新的几何一致性正则化项被施加到逐渐refine的中间特征来保持其较好的结构布局。在多个公认的视频插帧评测数据集实验中,IFRNet和相关优化算法展现出了state-of-the-art的插帧精度与可视化效果,同时具有极快的推理速度。
6月13日,「AI新青年讲座」第125讲邀请到IFRNet一作、腾讯优图实验室算法研究实习生、上海交通大学图像处理与模式识别研究所在读博士令通参与,主讲《高效视频插帧算法IFRNet及可视化效果应用》。