绑定手机号
确认绑定
场景理解旨在将视觉数据转化为结构化的场景图,而场景理解中的场景图生成任务(Image scene graph generation)目标是让计算机自动生成一种语义化的图结构。当前的视频场景图生成算法主要是基于轨迹片段(物体边界框序列)提名的。这些方法在每一对实体片段中单独进行关系分类,忽视了视频中实体关系的上下文特征。
为了解决上述问题,在CVPR 2022上,浙江大学在读博士高凯锋等人首次提出了先分类后定位的关系检测框架,它避免了现有的基于提案的框架的三个固有缺点:
(1) 提案的基本真实谓词标签在本质上是正确的
(2) 它们打破了同一主语-对象对的不同谓词实例之间的高阶关系
(3) VidSGG的性能由提案的质量决定
除此之外,高凯锋博士等人还提出了基于时序二分图的视频实体关系图。该方法有效地利用了关系之间的上下文特征,同时避免了由于物体轨迹切分片段造成的标签模糊问题,提升了模型训练的稳定性和算法的鲁棒性。
12月30日晚7点,「AI新青年讲座」第187讲邀请到浙江大学在读博士高凯锋参与,主讲《基于时序二分图的视频场景图生成方法》。