MSG-Transformer：高分辨率视觉任务中的新型Transformer架构

课程回放

智猩猩AI新青年讲座 2022/05/24 19:00:00

课程讲师

方杰民华中科技大学人工智能研究院/电信学院在读博士

师从刘文予教授和王兴刚教授；研究方向主要集中于神经网络架构层面的高效深度学习，曾在TPAMI、CVPR、ICLR、ICCV、NeurIPS等期刊和会议上发表研究论文。

方杰民

华中科技大学人工智能研究院/电信学院在读博士

师从刘文予教授和王兴刚教授；研究方向主要集中于神经网络架构层面的高效深度学习，曾在TPAMI、CVPR、ICLR、ICCV、NeurIPS等期刊和会议上发表研究论文。

课程提纲

视觉Transformer的研究与发展
面向视觉高分辨率场景的多层级Transformer设计
基于信使Tokens高效交换局部信息的MSG-Transformer
未来Transformer的应用前景和发展趋势

课程简介

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

随着PVT和Swin Transformer的成功，让我们看到了Transformer在视觉任务上的巨大前景。PVT的核心是金字塔结构，同时通过对attention的keys和values进行downsample来进一步减少计算量，但是其计算复杂度依然和图像大小的平方成正比。而Swin Transformer在金字塔结构基础上提出了window attention，这其实本质上是一种local attention，并通过shifted window来建立cross-window的关系，其计算复杂度和图像大小成正比。基于local attention的模型计算复杂低，但是也丧失了global attention的全局感受野建模能力。

Transformer要应用到更广泛的视觉任务中，往往无法避免高分辨率的场景。然而，传统Transformer结构在高分辨数据上的计算开销极大。华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中，信使Token负责提取每一个局部区域的信息，并与其他信使token进行交换，然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度，在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大，所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上，其模型效果和Swin接近，但其在CPU上速度较快。在COCO数据集上，基于Mask R-CNN模型，也可以和Swin模型取得类似的效果。此外，信使Token的机制在建模时间信息上也有着明显优势，相信该机制在未来Transformer结构设计中能够带来更多的启发。

5月24日，「AI新青年讲座」第18讲邀请到MSG Transformer一作、华中科技大学人工智能研究院在读博士方杰民参与，主讲《MSG-Transformer：高分辨率视觉任务中的新型Transformer架构》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...