绑定手机号
确认绑定
扩展深度神经网络已被证明在提高模型质量方面是有效的,同时它也带来了不断增长的训练挑战,包括训练效率、可编程性和资源适应性。新加坡国立大学System Lab在读博士史子骥在阿里云计算平台事业部实习期间,提出了一个针对巨型模型的通用且高效的分布式训练框架Whale。
Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。Whale也提供了简洁易用的接口,用户只需添加几行代码即可组合各种混合并行策略。
同时Whale还提供了一种新颖的基于硬件感知的自动化分布式并行策略,可以感知不同硬件的算力、显存等资源,均衡不同硬件上的计算量,最大化计算效率。在具有 512 个 GPU 的生产集群中,Whale成功训练了一个行业规模的多模态模型M6,模型参数超过 10 万亿个 ,展示了出色的可扩展性和效率。
8月3日晚7点,「AI新青年讲座」第142讲,邀请到新加坡国立大学System Lab在读博士史子骥参与,主讲《利用自动化的分布式混合并行策略高效训练大模型》。