绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
大模型稀疏性及优化设计在线研讨会
线上闭门会 2023/08/02 10:00:00
主讲人

2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。

刘世伟
德克萨斯大学奥斯汀分校 VITA组博士后

2015年毕业于哈尔滨工业大学(深圳),随后加入荷兰埃因霍温理工大学攻读博士学位并于2022年获得博士学位,并拿到杰出博士论文奖项;博士期间在ICML、NeurIPS、ICLR、UAI、ECML等会议发表多篇一作论文。

将于 2024 年秋季加入北卡罗来纳大学教堂山分校计算机系担任助理教授;在这之前 (2023 - 2024),将加入麻省理工和哈佛大学担任博士后研究员;分别于 2023 年和 2017 年获得了德克萨斯大学奥斯汀分校电子&计算机工程的博士学位,和中国科学技术大学 (少年班学院) 的应用数学和计算机双学士学位;主要研究方向是建立准确、可靠和高效的机器学习系统,近期研究方向主要聚焦于:1)重要的机器学习问题,包括稀疏神经网络、鲁棒性、可学习的优化算法、图网络和扩散模型;2)交叉学科的科学难题,比如生物工程、疫苗药物研发和量子计算;曾先后获得了 Adobe 博士奖学金、IBM 博士奖学金、UT Austin 研究生院长奖学金和 LoG’22 最佳论文;曾于各大顶会顶刊发表论文,包括 NeurIPS、ICML、ICLR、JMLR、CVPR、ICCV、ECCV、AAAI、TAPMI 等。

陈天龙
德克萨斯大学奥斯汀分校 博士

将于 2024 年秋季加入北卡罗来纳大学教堂山分校计算机系担任助理教授;在这之前 (2023 - 2024),将加入麻省理工和哈佛大学担任博士后研究员;分别于 2023 年和 2017 年获得了德克萨斯大学奥斯汀分校电子&计算机工程的博士学位,和中国科学技术大学 (少年班学院) 的应用数学和计算机双学士学位;主要研究方向是建立准确、可靠和高效的机器学习系统,近期研究方向主要聚焦于:1)重要的机器学习问题,包括稀疏神经网络、鲁棒性、可学习的优化算法、图网络和扩散模型;2)交叉学科的科学难题,比如生物工程、疫苗药物研发和量子计算;曾先后获得了 Adobe 博士奖学金、IBM 博士奖学金、UT Austin 研究生院长奖学金和 LoG’22 最佳论文;曾于各大顶会顶刊发表论文,包括 NeurIPS、ICML、ICLR、JMLR、CVPR、ICCV、ECCV、AAAI、TAPMI 等。

将于 2024 年秋季加入 Simon Fraser University 计算机系担任助理教授;2023 - 2024年,将加入UC Berkeley统计系作为博士后;本科毕业于中国科学技术大学,并于 2023 年获得德克萨斯大学奥斯汀分校电子计算机工程系的博士学位;研究工作发表于各大顶会期刊 (NeurIPS、ICML、ICLR、JMLR、CVPR、ICCV、ECCV);近期的研究方向包括: 1)深度学习理论及应用;2))轻量化机器学习和计算机视觉的算法和模型设计;3)深度学习在计算生物和科学计算中的算法与应用。

陈武阳
德克萨斯大学奥斯汀分校 博士

将于 2024 年秋季加入 Simon Fraser University 计算机系担任助理教授;2023 - 2024年,将加入UC Berkeley统计系作为博士后;本科毕业于中国科学技术大学,并于 2023 年获得德克萨斯大学奥斯汀分校电子计算机工程系的博士学位;研究工作发表于各大顶会期刊 (NeurIPS、ICML、ICLR、JMLR、CVPR、ICCV、ECCV);近期的研究方向包括: 1)深度学习理论及应用;2))轻量化机器学习和计算机视觉的算法和模型设计;3)深度学习在计算生物和科学计算中的算法与应用。

完整议程
  • 大型语言模型 LLMs 的稀疏化探究
  • 高效的大模型参数微调算法
  • 大模型的结构优化设计
研讨会简介

随着语言模型规模的快速增大,对计算资源和时延要求越来越高。由此,以稀疏化为代表的模型压缩技术应运而生。这些方法为模型压缩和加速提供了一种可能的方向。

稀疏性(Sparsity),指的是模型具有非常大的容量,但只有模型的用于给定的任务、样本或标记的某些部分被激活。这样,能够显著增加模型容量和能力,而不必成比例增加计算量。同时,稀疏性的概念,也可以降低核心 Transformer 架构中注意力机制的成本,比如经典的 ETC 模型、BigBird 模型等。

8月2日早10点,智东西公开课教研组推出「大模型稀疏性及优化设计在线研讨会」。研讨会由德克萨斯大学奥斯汀分校博士后刘世伟参与出品。神经网络中的稀疏性是他的主要研究方向之一。刘世伟博士还曾担任 ICIP’22 和 ICIP’23 的Area Chair,并在各大顶会担任审稿人。

本次研讨会,刘世伟博士也将进行主讲,主题为《大型语言模型 LLMs 的稀疏化探究》。同时,他也邀请了德克萨斯大学奥斯汀分校陈天龙和陈武阳两位博士带来主讲。两位主讲人将分别围绕《高效的大模型参数微调算法》和《大模型的结构优化设计》带来分享。

出品人:

刘世伟,德克萨斯大学奥斯汀分校博士后;于2022年在埃因霍温理工大学获得博士学位;研究兴趣主要包括(1)通过empirical theory去理解神经网络,(2)神经网络中的稀疏性;在多AI顶会和期刊上发表了30多篇论文,包括NeurIPS、ICML、ICLR、IJCV、AAAI、IJCAI、ECMLPKDD、UAI、LoG;曾先后获得最佳博士论文奖和LoG’22 最佳论文,担任了ICIP’22 和ICIP’23的Area Chair,并在各大顶会担任审稿人。

主题介绍:

德克萨斯大学奥斯汀分校博士后刘世伟:大型语言模型 LLMs 的稀疏化探究

本次分享分为两部分:(1)稀疏性能为LLMs带来高效性吗?我们大规模的研究了 LLMs 的稀疏性,发现了稀疏性是在 LLMs 上的普遍性、早期性、和数据量的相关性;(2) 稀疏性在 LLMs 上的一些陷阱。

我们探究了 LLMs 上稀疏度和测试任务难易程度的相关性,并提出了 LLMs 上稀疏化的一些更有挑战性的任务。最后,也将分享一些 LLMs 稀疏化未来有趣的研究方向。

德克萨斯大学奥斯汀分校博士陈天龙:高效的大模型参数微调算法

如何建立高效和可靠的机器学习系统?本次分享将会先对经典的模型压缩算法(比如模型剪枝,彩票假说)进行分享,这一部分会具体讲到如何从不规则的稀疏网络获得对硬件加速有益的规则稀疏性。

之后,会对大型语言模型的高效微调算法进行全面讲解,包括基于混合专家模型的高效训练,以及高效参数微调算法(比如从经典的 LoRA 形式如何得到更加泛化的高效分解)。最后,也会介绍机器学习系统常见的安全隐患和如何提升其鲁棒性,以及对未来进一步的工作进行展望。

德克萨斯大学奥斯汀分校博士陈武阳:大模型的结构优化设计

深度神经网络极大地推动了机器学习的成功。在过去的十年中,深层和有复杂连接的网络架构不断被设计出来。然而,深度学习的理论与应用之间的差距正在不断扩大。这次分享将围绕这一问题展开,试图弥补这一差距。

通过对神经网络的训练、复杂度、泛化性能的理论和实验分析,我们可以为网络架构的设计做准确和高效的指导。借助我们的理论指导,我们不需要训练深度神经网络就可以显著加速网络结构搜索。在没有任何训练 (梯度下降) 成本的情况下,我们的方法 (“TE-NAS”) 在GPU上仅耗时4个小时就可以自动设计 ImageNet 数据集上新颖且准确的网络架构。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...