绑定手机号
确认绑定
语义分割是计算机视觉中的一项密集的预测任务,需要对输入图像进行像素级分类。为了获得更好的性能,以往的全卷积网络工作侧重于丰富上下文信息或融合多尺度信息。然而,受限于感受野,全卷积网络很难明确建模空间位置之间的相关性。
来自阿德莱德大学的张博文博士等人,在NIPS 2022上的成果上探索了筒状ViT backbone 在分割任务上的实现方法。有别于以往方法使用的逐个像素监督,张博等人利用 ViT 的全局注意力机制来生成每一类的掩码再进行监督,即Attention-to-Mask (ATM)注意力到掩码机制。利用这个机制,模型可以在更轻量的结构下实现更直接的梯度回传,从而提升语义分割性能。
同时,围绕 ATM 模块,张博等人提出了一种新的具有普通ViT结构的语义分割范式SegViT,并设计的一系列适配 ViT backbone 的结构。其中融合 ViT 输出的结构在多项数据集上取得了SOTA的结果,而以减少计算量为目的的Shrunk结构可在保持性能的同时大幅减少计算量。
12月19日晚6点,「AI新青年讲座」第184讲邀请到阿德莱德大学在读博士张博文参与,主讲《轻量级语义分割新范式SegViT》。