绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
视觉Transformer的新型注意力机制设计
AI新青年讲座 2022/11/25 19:00:00
课程讲师
潘梓正 莫纳什大学 Zip Lab在读博士

研究方向为模型压缩与加速,指导老师为庄博涵和蔡剑飞教授,以第一作者身份在ICCV、AAAI、NeurIPS等顶级会议中发表多篇论文。

潘梓正
莫纳什大学 Zip Lab在读博士

研究方向为模型压缩与加速,指导老师为庄博涵和蔡剑飞教授,以第一作者身份在ICCV、AAAI、NeurIPS等顶级会议中发表多篇论文。

课程提纲
  • 视觉Transformer模型结构的速度瓶颈
  • 新型注意力机制HiLo
  • 基于HiLo的快速Transformer骨干模型LITv2
  • 在速度、显存占用及理论复杂度的优越性
课程简介

Vision Transformer(ViT)在计算机视觉任务中的表现越来越引人瞩目,然而当前大部分ViT在设计的过程中主要以理论复杂度作为指标,这使得模型的实际硬件速度和理论复杂度之间存在一定差距。ViT模型结构上的面临着速度瓶颈,理论复杂度似乎也不能完全反应实测速度。

为了解决这个问题,莫纳什大学Zip Lab在读博士生潘梓正等人在今年的NeurIPS 2022上,提出了一种简单而有效的新型注意力机制HiLo,并全新推出了视觉Transformer骨干模型LITv2。

HiLo是LITv2的核心,主要是通过将head分为两组来分离注意层中的高/低频模式,其中一组通过每个局部窗口内的自注意力对高频进行编码,另一组负责建模每个窗口的平均池化低频键与输入特征映射中的每个查询位置之间的全局关系。得益于两组的高效设计,在对GPU上的FLOPs、速度和内存消耗进行全面基准测试中,都表明HiLo优于现有的注意力机制。也使VIT更适合在真实场景中运行低延迟应用程序。

11月25日晚7点,「AI新青年讲座」第174讲,邀请到LITv2一作、莫纳什大学Zip Lab在读博士潘梓正参与,主讲《视觉Transformer的新型注意力机制设计》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...