轻量级语义分割新范式SegViT

课程回放

轻量级语义分割新范式SegViT

AI新青年讲座 2022/12/19 18:00:00

课程讲师

张博文阿德莱德大学在读博士

研究方向为计算机视觉分割检测，师从沈春华和刘伊凡教授，以第一作者身份在顶级会议中发表多篇论文。

张博文

阿德莱德大学在读博士

研究方向为计算机视觉分割检测，师从沈春华和刘伊凡教授，以第一作者身份在顶级会议中发表多篇论文。

课程提纲

视觉Transformer与语义分割任务的研究
ATM注意力模块设计
具有ViT结构的语义分割新范式SegViT
ViT主干架构的进一步探索讨论

课程简介

语义分割是计算机视觉中的一项密集的预测任务，需要对输入图像进行像素级分类。为了获得更好的性能，以往的全卷积网络工作侧重于丰富上下文信息或融合多尺度信息。然而，受限于感受野，全卷积网络很难明确建模空间位置之间的相关性。

来自阿德莱德大学的张博文博士等人，在NIPS 2022上的成果上探索了筒状ViT backbone 在分割任务上的实现方法。有别于以往方法使用的逐个像素监督，张博等人利用 ViT 的全局注意力机制来生成每一类的掩码再进行监督，即Attention-to-Mask (ATM）注意力到掩码机制。利用这个机制，模型可以在更轻量的结构下实现更直接的梯度回传，从而提升语义分割性能。

同时，围绕 ATM 模块，张博等人提出了一种新的具有普通ViT结构的语义分割范式SegViT，并设计的一系列适配 ViT backbone 的结构。其中融合 ViT 输出的结构在多项数据集上取得了SOTA的结果，而以减少计算量为目的的Shrunk结构可在保持性能的同时大幅减少计算量。

12月19日晚6点，「AI新青年讲座」第184讲邀请到阿德莱德大学在读博士张博文参与，主讲《轻量级语义分割新范式SegViT》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...