模型压缩和软硬件协同设计的算法研究

课程回放

模型压缩和软硬件协同设计的算法研究

智猩猩AI新青年讲座 2022/12/02 10:00:00

课程讲师

董镇伯克利大学博士后

2018年本科毕业于北大EECS，2022年博士毕业于伯克利EECS，目前在伯克利做Postdoc，研究的方向有模型压缩、模型量化、架构搜索、软件硬件协同设计；发表的论文HAWQ系列（HAWQ、HAWQV2、HAWQV3）使用Hessian矩阵信息来优化混合精度量化，论文Q-BERT首次尝试大规模语言模型的压缩，论文ZeroQ提出不需要样本的后训练量化范式（Zero-Data PTQ），发表的综述论文详细地介绍了以往的模型量化方法并且系统的对量化进行了归类和展望。

董镇

伯克利大学博士后

课程提纲

深度神经网络的端侧部署困境
实现低精度和混合精度的量化算法库HAWQ
面向FPGA软硬件协同设计的CoDeNet、HAO
量化与协同设计的探讨总结

课程简介

随着先进的神经网络规模的增长，AI模型在器件端的部署变得愈发困难。模型压缩和软硬件协同设计是目前最常见的两种解决方案。

混合精度量化是模型压缩领域的重要方法。混合精度量化允许神经网络的每一层拥有不同的量化位宽，从而可以很大程度上保留模型的精确度，但是确定每一层的位宽导致了一个指数级的搜索空间。

来自伯克利人工智能实验室 (BAIR) 的博士后董镇等人针对混合精度量化，提出了HAWQ系列、Q-BERT、ZeroQ等等研究成果。HAWQ系列（HAWQ、HAWQV2、HAWQV3）使用Hessian矩阵信息来优化混合精度量化，Q-BERT则首次尝试大规模语言模型的压缩，ZeroQ提出了不需要样本的后训练量化范式（Zero-Data PTQ）。

同时，针对软硬件协同设计的问题，董镇博士等人还提出了CoDeNet、HAO、ETA等相关工作。CoDeNet是一个可以在FPGA上部署的目标检测网络，HAO是在FPGA上进行高效推理的神经网络架构搜索算法。

12月2日早10点，「AI新青年讲座」第177讲邀请到伯克利大学博士后董镇参与，主讲《模型压缩和软硬件协同设计的算法研究》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...