绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
MSG-Transformer:高分辨率视觉任务中的新型Transformer架构
AI新青年讲座 2022/05/24 19:00:00
课程讲师
方杰民 华中科技大学 人工智能研究院/电信学院在读博士

师从刘文予教授和王兴刚教授;研究方向主要集中于神经网络架构层面的高效深度学习,曾在TPAMI、CVPR、ICLR、ICCV、NeurIPS等期刊和会议上发表研究论文。

方杰民
华中科技大学 人工智能研究院/电信学院在读博士

师从刘文予教授和王兴刚教授;研究方向主要集中于神经网络架构层面的高效深度学习,曾在TPAMI、CVPR、ICLR、ICCV、NeurIPS等期刊和会议上发表研究论文。

课程提纲
  • 视觉Transformer的研究与发展
  • 面向视觉高分辨率场景的多层级Transformer设计
  • 基于信使Tokens高效交换局部信息的MSG-Transformer
  • 未来Transformer的应用前景和发展趋势
课程简介

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

随着PVT和Swin Transformer的成功,让我们看到了Transformer在视觉任务上的巨大前景。PVT的核心是金字塔结构,同时通过对attention的keys和values进行downsample来进一步减少计算量,但是其计算复杂度依然和图像大小的平方成正比。而Swin Transformer在金字塔结构基础上提出了window attention,这其实本质上是一种local attention,并通过shifted window来建立cross-window的关系,其计算复杂度和图像大小成正比。基于local attention的模型计算复杂低,但是也丧失了global attention的全局感受野建模能力。

Transformer要应用到更广泛的视觉任务中,往往无法避免高分辨率的场景。然而,传统Transformer结构在高分辨数据上的计算开销极大。华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。

5月24日,「AI新青年讲座」第18讲邀请到MSG Transformer一作、华中科技大学人工智能研究院在读博士方杰民参与,主讲《MSG-Transformer:高分辨率视觉任务中的新型Transformer架构》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...