视觉Transformer的新型注意力机制设计

课程回放

智猩猩AI新青年讲座 2022/11/25 19:00:00

课程讲师

潘梓正莫纳什大学 Zip Lab在读博士

研究方向为模型压缩与加速，指导老师为庄博涵和蔡剑飞教授，以第一作者身份在ICCV、AAAI、NeurIPS等顶级会议中发表多篇论文。

潘梓正

莫纳什大学 Zip Lab在读博士

研究方向为模型压缩与加速，指导老师为庄博涵和蔡剑飞教授，以第一作者身份在ICCV、AAAI、NeurIPS等顶级会议中发表多篇论文。

课程提纲

视觉Transformer模型结构的速度瓶颈
新型注意力机制HiLo
基于HiLo的快速Transformer骨干模型LITv2
在速度、显存占用及理论复杂度的优越性

课程简介

Vision Transformer（ViT）在计算机视觉任务中的表现越来越引人瞩目，然而当前大部分ViT在设计的过程中主要以理论复杂度作为指标，这使得模型的实际硬件速度和理论复杂度之间存在一定差距。ViT模型结构上的面临着速度瓶颈，理论复杂度似乎也不能完全反应实测速度。

为了解决这个问题，莫纳什大学Zip Lab在读博士生潘梓正等人在今年的NeurIPS 2022上，提出了一种简单而有效的新型注意力机制HiLo，并全新推出了视觉Transformer骨干模型LITv2。

HiLo是LITv2的核心，主要是通过将head分为两组来分离注意层中的高/低频模式，其中一组通过每个局部窗口内的自注意力对高频进行编码，另一组负责建模每个窗口的平均池化低频键与输入特征映射中的每个查询位置之间的全局关系。得益于两组的高效设计，在对GPU上的FLOPs、速度和内存消耗进行全面基准测试中，都表明HiLo优于现有的注意力机制。也使VIT更适合在真实场景中运行低延迟应用程序。

11月25日晚7点，「AI新青年讲座」第174讲，邀请到LITv2一作、莫纳什大学Zip Lab在读博士潘梓正参与，主讲《视觉Transformer的新型注意力机制设计》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...