- 课程回放
- 视觉Transformer的研究与发展
- 面向视觉高分辨率场景的多层级Transformer设计
- 基于信使Tokens高效交换局部信息的MSG-Transformer
- 未来Transformer的应用前景和发展趋势
「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。
随着PVT和Swin Transformer的成功,让我们看到了Transformer在视觉任务上的巨大前景。PVT的核心是金字塔结构,同时通过对attention的keys和values进行downsample来进一步减少计算量,但是其计算复杂度依然和图像大小的平方成正比。而Swin Transformer在金字塔结构基础上提出了window attention,这其实本质上是一种local attention,并通过shifted window来建立cross-window的关系,其计算复杂度和图像大小成正比。基于local attention的模型计算复杂低,但是也丧失了global attention的全局感受野建模能力。
Transformer要应用到更广泛的视觉任务中,往往无法避免高分辨率的场景。然而,传统Transformer结构在高分辨数据上的计算开销极大。华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。
MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。
5月24日,「AI新青年讲座」第18讲邀请到MSG Transformer一作、华中科技大学人工智能研究院在读博士方杰民参与,主讲《MSG-Transformer:高分辨率视觉任务中的新型Transformer架构》。
