玩转多轴注意力机制——基于视觉Transformer和MLP的高效模型设计

课程回放

智猩猩AI新青年讲座 2022/09/28 10:00:00

课程讲师

涂正中德克萨斯大学奥斯汀分校博士

现任谷歌研究院工程师，师从美国工程院院士Alan Bovik教授；研究方向为视频质量评估，底层视觉，和骨干架构设计；目前作为第一作者在计算机视觉顶级会议或期刊CVPR、ECCV、TIP上发表论文多篇，曾获得CVPR 2022最佳论文提名奖，并多次担任著名计算机视觉会议CVPR、ECCV、TIP、TCSVT等审稿人，曾在YouTube、谷歌AI等机构实习。

涂正中

德克萨斯大学奥斯汀分校博士

课程提纲

视觉Transformer与注意力机制
面向高级视觉任务的SOTA模型MaxViT解析
基于MLP的通用底层视觉类UNet骨干网络MAXIM
CoBEVT：稀疏Transformer协作BEV语义分割模型

课程简介

都2022年了，何必还执著于在卷积神经网络中调参内卷。Vision Transformer (ViT）发表才不过一年多，就已经在各大视觉领域”鲨疯了“！ViT、Mixer、gMLP等各种奇技淫巧应运而生，这些新的视觉骨干网络带领了一波从根本上区别于传统卷积神经网络（CNN）架构设计的模式转变（paradigm shift），即全局模型（Global Models or Non-Local Networks）—— 我们不再依赖于长期以来人们对二维图像的先验知识（prior)：平移不变性和局部依赖；而是无脑使用全局感受野和超大规模数据预训练的”钞能力“。

来自德克萨斯奥斯汀分校以及谷歌研究院的涂正中博士等人为了解决传统ViT模型中自注意力机制在图像大小方面缺乏的可扩展性，提出了一个简单的局部、全局自注意力与卷积三者混合的大一统模型多轴Transformer，称之为MaxViT（Multi-Axis Vision Transformer）。作为视觉任务的骨干网络，MaxViT允许任意分辨率的输入，在ImageNet上其性能远超ConvNeXt、Swin Transformer等主流模型。

针对Transformer/MLP模型的不灵活性、高空间复杂度、以及无法自适应的应用在不同分辨率的问题，涂正中博士等人在CVPR 2022上提出了最新的基于MLP的UNet型骨干网络，，同时实现了全局、局部感受野，并且可以在线性复杂度下直接应用在高分辨图片上，具有“全卷积”特性，可以即插即用。也是第一次把最近爆火的MLP应用在底层视觉，在五大图像处理任务（去噪，去模糊，去雨，去雾，增强）超过10个数据集达到SOTA性能，该论文成果也获得了CVPR 2022 Oral。

同时，涂正中博士联合加州大学洛杉矶分校徐润生博士等人将利用多轴注意力机制应用于BEV地图理解中，并设计出了一个融合轴向注意力（fused axial attention，FAX）模块，该模块可以捕捉跨视图和智体的稀疏局部和全局空间交互。根据FAX模型设计的多智体多摄像机感知框架CoBEVT可以协同生成BEV地图预测。在V2V感知数据集OPV2V上的大量实验也表明，CoBEVT在协作BEV语义分割方面达到了最先进的性能。

9月28日上午10点，「AI新青年讲座」第161讲，邀请到德克萨斯大学奥斯汀分校博士涂正中参与，主讲《玩转多轴注意力机制——基于视觉Transformer和MLP的高效模型设计》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...