- 课程回放
2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。
2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。
- 模型加速中稀疏训练的研究
- 经典稀疏训练方法解析
- 稀疏训练在51x51超大卷积核上的应用
- 未来有价值的研究方向探讨
随着数亿级神经网络的流行,模型加速在现实中的意义变得越来越大,模型加速的需求也不仅仅局限于模型部署上。稀疏训练能够端对端的训练参数少,计算量小的稀疏模型,并取得和稠密模型一样的精度,已经逐渐成为模型训练的新范式。
稀疏训练是一种通用的模型压缩方法,目的是让学习到的大部分网络权重靠近零。同时,稀疏相比于其他模型压缩方法(结构化剪枝与量化),可以在保证模型精度的情况下达到更高的压缩率,更加合适拥有大量参数的大模型。
德克萨斯大学奥斯汀分校VITA组博士后刘世伟等人在最新的研究成果中提出了一种新型网络结构SLaK(Sparse Large Kernel Network)。SLaK 搭载着有史以来最大的 51x51 卷积核,能够在相似的参数量和 FLOPs 的条件下,获得比最新先进的 ConvNeXt,Swin Transformer 和 RepLKNet 更好的性能。
11月16日上午10点,「AI新青年讲座」第170讲邀请到德克萨斯大学奥斯汀分校VITA组博士后刘世伟参与,主讲《如何用稀疏训练加速大模型训练》。刘世伟博士将先和大家一起回顾稀疏训练的前世和今生,之后详细介绍几个最有代表性的稀疏训练方法和稀疏训练在51x51的超大卷积核上的应用,最后也会抛出关于稀疏训练的一些开放性问题和有价值的研究方向,和大家一起探讨学习。