绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
利用自动化的分布式混合并行策略高效训练大模型
智猩猩AI新青年讲座 2022/08/03 19:00:00
课程讲师
史子骥 新加坡国立大学 System Lab在读博士

师从李佳临教授;研究方向为高性能计算和分布式机器学习,曾在AAAI/USENIX ATC发表论文,本科期间曾获SC17超算竞赛冠军,目前在阿里云计算平台事业部实习。

史子骥
新加坡国立大学 System Lab在读博士

师从李佳临教授;研究方向为高性能计算和分布式机器学习,曾在AAAI/USENIX ATC发表论文,本科期间曾获SC17超算竞赛冠军,目前在阿里云计算平台事业部实习。

课程提纲
  • 大模型训练的难点
  • 易用且支持多种并行策略的分布式训练框架Whale
  • 基于硬件感知的自动化并行策略及显存、通讯优化
  • 实操演示:通过几行代码实现分布式并行策略
课程简介

扩展深度神经网络已被证明在提高模型质量方面是有效的,同时它也带来了不断增长的训练挑战,包括训练效率、可编程性和资源适应性。新加坡国立大学System Lab在读博士史子骥在阿里云计算平台事业部实习期间,提出了一个针对巨型模型的通用且高效的分布式训练框架Whale。

Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。Whale也提供了简洁易用的接口,用户只需添加几行代码即可组合各种混合并行策略。

同时Whale还提供了一种新颖的基于硬件感知的自动化分布式并行策略,可以感知不同硬件的算力、显存等资源,均衡不同硬件上的计算量,最大化计算效率。在具有 512 个 GPU 的生产集群中,Whale成功训练了一个行业规模的多模态模型M6,模型参数超过 10 万亿个 ,展示了出色的可扩展性和效率。

8月3日晚7点,「AI新青年讲座」第142讲,邀请到新加坡国立大学System Lab在读博士史子骥参与,主讲《利用自动化的分布式混合并行策略高效训练大模型》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...