绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
如何用稀疏训练加速大模型训练
智猩猩AI新青年讲座 2022/11/16 10:00:00
课程讲师

2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。

刘世伟
德克萨斯大学奥斯汀分校 VITA组博士后

2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。

课程提纲
  • 模型加速中稀疏训练的研究
  • 经典稀疏训练方法解析
  • 稀疏训练在51x51超大卷积核上的应用
  • 未来有价值的研究方向探讨
课程简介

随着数亿级神经网络的流行,模型加速在现实中的意义变得越来越大,模型加速的需求也不仅仅局限于模型部署上。稀疏训练能够端对端的训练参数少,计算量小的稀疏模型,并取得和稠密模型一样的精度,已经逐渐成为模型训练的新范式。

稀疏训练是一种通用的模型压缩方法,目的是让学习到的大部分网络权重靠近零。同时,稀疏相比于其他模型压缩方法(结构化剪枝与量化),可以在保证模型精度的情况下达到更高的压缩率,更加合适拥有大量参数的大模型。

德克萨斯大学奥斯汀分校VITA组博士后刘世伟等人在最新的研究成果中提出了一种新型网络结构SLaK(Sparse Large Kernel Network)。SLaK 搭载着有史以来最大的 51x51 卷积核,能够在相似的参数量和 FLOPs 的条件下,获得比最新先进的 ConvNeXt,Swin Transformer 和 RepLKNet 更好的性能。

11月16日上午10点,「AI新青年讲座」第170讲邀请到德克萨斯大学奥斯汀分校VITA组博士后刘世伟参与,主讲《如何用稀疏训练加速大模型训练》。刘世伟博士将先和大家一起回顾稀疏训练的前世和今生,之后详细介绍几个最有代表性的稀疏训练方法和稀疏训练在51x51的超大卷积核上的应用,最后也会抛出关于稀疏训练的一些开放性问题和有价值的研究方向,和大家一起探讨学习。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...