- 课程回放
- 小样本行为识别的研究进展
- 基于度量元学习框架方法的局限性
- 跨视频相关性表征灵活匹配的算法HyRSM
- 在不同视频场景中的泛化性表现
在奥斯卡获奖短片《Changing Batteries》中讲述了一个机器人和一位独居老奶奶之间的故事:老奶奶收到儿子从远方寄来的一个快递,是个机器人。这个机器人善于“察言观色”,通过实时检测和分析老人的行动,不仅能在老奶奶口渴时为她端水、扫地时接过老奶奶的扫把,还能监测老奶奶是否正常吃饭、服药。有了这个机器人的陪伴,老奶奶感受到了久违的快乐。而让机器人实现“察言观色”技能的方法就是行为识别。
行为识别任务一般是在预先标注的训练样本上学习深度模型来对测试数据做出预测,但其模型的泛化能力需要由大量的训练样本来保证。同时,对于新的一些动作类别,则需要重新训练模型,这极大地限制了行为识别的实际落地运用。因此,利用少量样本就实现准确的行为识别变得十分重要。
现有的小样本行为识别方法大多采用基于度量的元学习框架。这类方法首先学习一个深度嵌入空间,然后设计一个显式或隐式对齐度量来计算测试视频和参考视频之间的距离,来对视频中出现的动作进行分类。但这类方法还存在以下两个问题:
1)跨视频相关性。单独对每个视频进行特征建模时,忽略了整个任务中视频的相关性。
2)时序对齐。相同动作类别的视频实例有严格的时序对齐关系,没有对齐的实例可能导致匹配失败。
为了解决这两个问题,来自华中科技大学&阿里达摩院城市大脑实验室的王翔等人提出了跨视频相关性表征灵活匹配的算法HyRSM。该算法由混合关系模块和集合匹配模块组成。在混合关系模块中,应用一个内部关系函数,提取视频内部和视频之间的混合关系来学习具有任务相关的表征;在集合匹配模块,基于特定任务的表征,将查询和测试视频之间的距离度量转化为集合匹配问题,并进一步设计了一个双向平均Hausdorff度量,来放松严格的时序要求。
通过结合这两个模块,HyRSM可以充分整合语义关系表征,并且在小样本设置下以端到端的方式提供灵活的视频匹配。HyRSM在Kinetics、SSv2-Full等六个公用数据集上表现优异,取得了SOTA的性能,该工作被收录CVPR 2022。
5月16日,「AI新青年讲座」第16讲特邀华中科技大学准博士&阿里巴巴达摩院城市大脑实验室实习生王翔参与,主讲《基于小样本的跨视频行为识别》。
