绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
基于剪枝的压缩模型在移动设备上的推理加速
模型优化部署讲座 2021/11/23 10:00:00
课程讲师
牛威 威廉玛丽学院 在读博士

研究兴趣包括模型压缩与加速、高性能计算、神经网络编译器设计;曾在ASPLOS、PLDI、NIPS、CVPR、ECCV、AAAI、DAC、ICS、RTAS、TPAMI等正式会议与期刊上发表诸多文章。

牛威
威廉玛丽学院 在读博士

研究兴趣包括模型压缩与加速、高性能计算、神经网络编译器设计;曾在ASPLOS、PLDI、NIPS、CVPR、ECCV、AAAI、DAC、ICS、RTAS、TPAMI等正式会议与期刊上发表诸多文章。

课程提纲
  • 神经网络模型在移动设备上实时推理的挑战
  • 现有的模型剪枝方法及局限性
  • 压缩-编译协同设计与优化的移动端加速方案
  • 在移动设备的实时推理应用
课程简介

在5月份,智东西公开课AI技术教研组聚焦于轻量化网络设计与优化的研究与应用,策划推出了「轻量化网络专题讲座」,并邀请到北京航空航天大学在读博士秦浩桐、德国慕尼黑大学在读博士顾金东和悉尼大学在读博士郭晋阳,分别就轻量化网络中的模型量化、知识蒸馏和模型剪枝等主题进行深度讲解。

11月,智东西公开课将轻量化网络专题讲座全面升级为「模型优化与部署系列课」,聚焦深度学习模型的设计、优化,以及实际部署等问题,邀请各子领域的科研人员和开发者对研究成果和开发经验进行深度讲解。

11月23日上午10点,「模型优化与部署系列课」第4讲邀请到威廉玛丽学院在读博士牛威参与。牛博的研究兴趣包括模型压缩与加速、高性能计算、神经网络编译器设计等,曾在ASPLOS、PLDI、NIPS、CVPR、ECCV、AAAI、DAC、ICS、RTAS、TPAMI等正式会议与期刊上发表诸多文章。在本次讲解中,他将围绕《基于剪枝的压缩模型在移动设备上的推理加速》这一主题进行讲解。

随着深度神经网络近年来的发展,神经网络模型随之增大。巨大的模型尺寸带来了更复杂的计算需求,在应用端也占用了更多的内存空间,使得深度神经网络在移动平台上的实时推理能力受到很大的挑战。即便是当今的移动平台已经拥有非常强大的计算与存储能力,借助现有的移动端软件深度神经网络加速框架(例如TVM,MNN和TensorFlow-Lite)依然很难实现实时推理。

为了解决上述问题,深度神经网络模型剪枝技术成为模型压缩中一个直接有效的方法。通过模型剪枝,神经网络的权重结构变得稀疏化。早期的非结构化剪枝采用了一种迭代型探索方法,将模型中绝对值较小的权重删除,得到一种权重不规则分布的神经网络模型。这种方法虽然取得了一定的压缩率与精度,但是却并没有改善模型的硬件执行效率,对硬件平行计算结构与内存访问并没有任何优化,而且也不适用于并行度较高的硬件平台。

结构化剪枝的提出在一定程度上解决了上述问题,但是其过于激进的剪枝方式(剪枝整个filter或channel)导致模型的精度和泛化能力的大大下降,从而影响了结构化剪枝的广泛使用。而牛威博士等人通过总结发现上述两种模型剪枝方法实质上代表了两个极端,限制了神经网络模型剪枝在软件层面和硬件层面的表现。

在ASPLOS 2020中,牛威博士提出了一种新型的剪枝稀疏性结构PCONV,包含了卷积核(convolution kernel)模式化剪枝(pattern pruning)与连通性剪枝(connectivity pruning):即卷积核模式化剪枝作为一种获取卷积核内部稀疏性的方法,其剪枝维度定位在每一个卷积核内部,通过删除卷积核内部固定数量的权重,使得卷积核呈现不同的形状,他们称这些不同的形状为卷积核模式(kernel pattern)。而最终的实验结果也表明,PatDNN不仅能得到更高的压缩率和模型精度,更重要的是与编译器的协同优化极大地提高了移动端的推理速度。

在本次课程中,牛博将围绕神经网络模型在移动设备上实时推理的挑战、现有的模型剪枝方法及局限性,深度讲解他们所提出的压缩-编译协同设计与优化的移动端加速方案,及其在移动设备的实时推理应用等。

本讲直播包含主讲和问答两个环节,其中主讲40分钟,问答20分钟。同时,我们还组建了技术交流群,并邀请讲师牛威博士进群,欢迎大家申请!

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...