- 课程回放
- 语义分割中的上下文相关性问题
- 自注意力机制的局限性
- 基于上下文先验的自注意力机制建模
- 减少自注意力机制冗余计算的代表性图网络
语义图像分割是计算机视觉中发展最快的领域之一,可广泛应用于多种场景,如机器人和自动驾驶汽车等。语义分割的目标是对图像进行像素级分类并分割为表示不同语义的区域,以便实现对更复杂场景的分析及理解。得益于全卷积网络框架的提出,语义分割的性能得到了大幅提升,越来越多的研究人员开始探索语义分割中的上下文相关性,以实现更准确的分割结果。但是,大多数方法很少区分不同类别之间的上下文相关性,这可能会影响语义分割模型的性能。
目前聚合上下文信息主要有两种方法:基于金字塔的聚合方法和基于注意力的聚合方法。前者可以捕获了同类的上下文关系,却忽略了不同类别的上下文,当场景中存在混淆类别时,这些方法可能会导致上下文可靠性降低。后者由于缺乏明确的区分,注意力机制的关系描述不太清楚,它可能会选择不需要的上下文依赖关系。总的来说,这两种方法聚合上下文信息,没有明显的区别类内和类间上下文 ,导致了不同上下文关系的混合,而自注意力机制是一种有效区分类内和类间上下文信息的方法。
自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性,被广泛地应用于建模长距离上下文相关性。但是,自注意力机制中仍然存在两个大的挑战:一是自注意力机制具体建模了什么关系;二是由于每一个点都要捕捉全局的上下文信息,这就导致了自注意力机制模块会有很大的计算复杂度和显存容量。
那如何剖析自注意力机制建模的关系呢?如何减少自注意力机制中的冗余计算呢?1月27日晚8点,智东西公开课邀请到华中科技大学在读博士余昌黔参与到「CV前沿讲座第二季」第1讲,带来主题为《面向语义分割的自注意力机制建模》的直播讲解。在本次讲解中,余昌黔博士将从语义分割中的上下文相关性入手,剖析自注意力机制的局限性,并详细分析基于上下文先验的自注意力机制建模和减少自注意力机制冗余计算的方法。
余昌黔是华中科技大学在读博士,导师为桑农老师。他的主要研究领域包括:语义分割、实例分割、全景分割,在计算机视觉顶级会议期刊上发表多篇论文,包括3篇CVPR论文(2篇第一作者),3篇ECCV论文(2篇第一作者),Google Scholar Citation累积超过800。余博也曾获得过两项国际竞赛冠军,包括COCO 2018 Panoptic Segmentation Challenge和Mapillary Vistas 2018 Panoptic Segmentation Challenge。