- 课程回放
低功耗注意力机制设计
AI新青年讲座 2022/12/08 19:00:00
课程讲师
课程提纲
- Transformer的部署难点
- 二值化模型压缩存在的问题
- 具有线性复杂度的低功耗注意力EcoFormer
- 在CV和NLP任务上显著降低模型功耗
课程简介
Transformer 是一种用于深度学习的变革性框架,它对序列数据进行建模,并在广泛的任务中取得了显着的性能,但计算和能源成本很高。为了提高效率,一种主流的选择是通过二值化压缩模型,将浮点值限制为二进制值以节省资源消耗,因为按位运算便宜。然而,现有的二值化方法仅旨在统计上最小化输入分布的信息损失,而忽略了注意力机制核心的成对相似性建模。因此,Transformer很难部署到资源受限设备中。
来自莫纳什大学Zip Lab的刘璟博士等人在NeurIPS 2022的工作中,提出一种基于kernelized hashing函数的二值化机制EcoFormer,将高维度queries和keys映射到汉明空间中低维度二进制码。所提出的算法通过自监督的方式训练kernelized hashing函数,以保留不同tokens之间的相似关系。根据矩阵乘法结合律,注意力机制具有线性复杂度。
此外,刘璟博士等人将注意力机制中的大部分浮点数乘法替换成浮点数加法,极大地降低Transformer的计算代价和片上功耗。通过大量的实验表明,EcoFormer在计算机视觉和自然语言处理任务上能够显著降低模型功耗,并同时取得不错的性能。例如,基于 PVTv2-B0 和 ImageNet-1K,EcoFormer 实现了 73% 的资源减少,与标准注意力相比,性能仅略有下降 0.33%。
12月7日晚7点,「AI新青年讲座」第178讲邀请到EcoFormer一作、莫纳什大学Zip Lab在读博士刘璟参与,主讲《低功耗注意力机制设计》。
精彩问答
提问
提问