如何用稀疏训练加速大模型训练

课程回放

如何用稀疏训练加速大模型训练

智猩猩AI新青年讲座 2022/11/16 10:00:00

课程讲师

刘世伟德克萨斯大学奥斯汀分校 VITA组博士后

2015年毕业于哈尔滨工业大学（深圳），随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位，并拿到杰出博士论文奖项；博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。

刘世伟

德克萨斯大学奥斯汀分校 VITA组博士后

课程提纲

模型加速中稀疏训练的研究
经典稀疏训练方法解析
稀疏训练在51x51超大卷积核上的应用
未来有价值的研究方向探讨

课程简介

随着数亿级神经网络的流行，模型加速在现实中的意义变得越来越大，模型加速的需求也不仅仅局限于模型部署上。稀疏训练能够端对端的训练参数少，计算量小的稀疏模型，并取得和稠密模型一样的精度，已经逐渐成为模型训练的新范式。

稀疏训练是一种通用的模型压缩方法，目的是让学习到的大部分网络权重靠近零。同时，稀疏相比于其他模型压缩方法（结构化剪枝与量化），可以在保证模型精度的情况下达到更高的压缩率，更加合适拥有大量参数的大模型。

德克萨斯大学奥斯汀分校VITA组博士后刘世伟等人在最新的研究成果中提出了一种新型网络结构SLaK（Sparse Large Kernel Network）。SLaK 搭载着有史以来最大的 51x51 卷积核，能够在相似的参数量和 FLOPs 的条件下，获得比最新先进的 ConvNeXt，Swin Transformer 和 RepLKNet 更好的性能。

11月16日上午10点，「AI新青年讲座」第170讲邀请到德克萨斯大学奥斯汀分校VITA组博士后刘世伟参与，主讲《如何用稀疏训练加速大模型训练》。刘世伟博士将先和大家一起回顾稀疏训练的前世和今生，之后详细介绍几个最有代表性的稀疏训练方法和稀疏训练在51x51的超大卷积核上的应用，最后也会抛出关于稀疏训练的一些开放性问题和有价值的研究方向，和大家一起探讨学习。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...