绑定手机号
确认绑定
Vision Transformer(ViT)在计算机视觉任务中的表现越来越引人瞩目,然而当前大部分ViT在设计的过程中主要以理论复杂度作为指标,这使得模型的实际硬件速度和理论复杂度之间存在一定差距。ViT模型结构上的面临着速度瓶颈,理论复杂度似乎也不能完全反应实测速度。
为了解决这个问题,莫纳什大学Zip Lab在读博士生潘梓正等人在今年的NeurIPS 2022上,提出了一种简单而有效的新型注意力机制HiLo,并全新推出了视觉Transformer骨干模型LITv2。
HiLo是LITv2的核心,主要是通过将head分为两组来分离注意层中的高/低频模式,其中一组通过每个局部窗口内的自注意力对高频进行编码,另一组负责建模每个窗口的平均池化低频键与输入特征映射中的每个查询位置之间的全局关系。得益于两组的高效设计,在对GPU上的FLOPs、速度和内存消耗进行全面基准测试中,都表明HiLo优于现有的注意力机制。也使VIT更适合在真实场景中运行低延迟应用程序。
11月25日晚7点,「AI新青年讲座」第174讲,邀请到LITv2一作、莫纳什大学Zip Lab在读博士潘梓正参与,主讲《视觉Transformer的新型注意力机制设计》。