- 课程回放
- 视频识别研究进展
- 视频识别主流算法的比较
- 基于空间冗余性的视频识别框架AdaFocus
- 在视频识别模型TSM中的加速表现
手机里存了大量的视频,想剪辑其中的精彩片段却犹如大海捞针?视频网站拥有海量视频,如何严格审核避免问题发生?大规模的监控视频,如何找到要识别行人和车辆?
面对这些问题,如何快速、准确的进行视频识别显得尤为重要。目前,基于深度学习的视频识别算法已取得了不错的进展,然而,这些算法通常会引入很大的计算开销,那如何减少计算开销,设计更高效的视频识别算法呢?
在图像分类中,卷积神经网络CNN会利用整个图像的几个判别区域来产生正确的预测 ,通过对这些相对较小的区域进行推理,可以显着降低 CNN 的计算成本。以此类比,在每一帧视频中,寻找并重点处理视频帧中最关键的区域,关注降低视频的空间冗余性是当前值得探索的一种实现高效视频识别的方法。
在ICCV 2021中,清华大学王语霖博士等人提出了一种基于空间冗余性的视频识别框架AdaFocus,它可以来动态定位和识别每帧的相关任务区域。该论文成果被收录为ICCV 2021 Oral。
AdaFocus首先使用轻量级 CNN 快速浏览每一帧,以获得粗略的全局信息;然后在其基础上训练一个循环策略网络来选择最有价值的区域进行识别;最后利用一个容量大、准确率高但参数量和计算开销较大的CNN来处理选定的区域,由于选定的区域通常尺寸很小,因此可以节省相当大的计算成本。
关于AdaFocus高效视频识别框架的更多信息可以参考王博的论文《Adaptive Focus for Efficient Video Recognition》,论文链接:https://arxiv.org/pdf/2105.03245.pdf。
11月12日晚7点,智东西公开课邀请到王语霖博士以《加速视频识别的新型通用框架AdaFocus》为主题,深入解析利用空间冗余性实现高效视频识别的通用框架。
王语霖是清华大学在读博士,导师为吴澄院士和黄高助理教授。他此前于北京航空航天大学自动化学院获工学学士学位,研究兴趣为高效动态神经网络的设计和训练,在T-PAMI、NeurIPS、ICLR、CVPR、ICCV等国际一流期刊、会议上发表学术论文。
本次讲座将在智东西公开课知识店铺进行,包含主讲和问答两个部分,其中主讲环节40分钟,问答环节20分钟。本次讲座已组建交流群,并邀请王语霖博士加入,欢迎感兴趣的朋友申请。