绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
如何利用GPU云服务器加速AIGC训练
2023/07/03 19:30:00
课程讲师
于子淇 阿里云 高级开发工程师

负责阿里云神龙AI训练加速引擎AIACC-Training的训练性能优化,研发AIACC1.x以及 2.0两大版本,包括NCCL集合通信算子优化、Socket/RDMA通信优化、AIACC-Kernel计算优化、弹性训练、AI框架无感工程化等,具备AI分布式训练的系统级优化工作。

于子淇
阿里云 高级开发工程师

负责阿里云神龙AI训练加速引擎AIACC-Training的训练性能优化,研发AIACC1.x以及 2.0两大版本,包括NCCL集合通信算子优化、Socket/RDMA通信优化、AIACC-Kernel计算优化、弹性训练、AI框架无感工程化等,具备AI分布式训练的系统级优化工作。

课程提纲
  • AIGC模型的实现原理以及典型模型
  • 基于阿里云 eRDMA 的 GPU 云服务器
  • FastGPU一键部署LLaMA流程及finetune原理解析
  • 基于AIACC的性能优化及效果展示
课程简介

6月起,智东西公开课联合阿里云弹性计算团队共同出品「阿里云加速AIGC技术公开课」,主讲大模型的算力挑战、Stable-Diffusion AI绘画与AIGC模型训练加速。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺、阿里云高级开发工程师于子淇三位技术专家将先后进行直播讲解。

目前,「阿里云加速AIGC技术公开课」前两讲已顺利完结。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺两位技术专家,分别以《大模型时代如何应对大算力挑战》、《基于AIACC加速器快速实现Stable-Diffusion AI绘画》为主题进行了直播讲解。

7月3日19:30,「阿里云加速AIGC技术公开课」第三讲将开讲,由阿里云高级开发工程师于子淇主讲,主题为《如何利用GPU云服务器加速AIGC训练》。

阿里云GPU云服务器提供GPU加速计算能力,能够实现GPU计算资源的即开即用和弹性伸缩。同时配备阿里云自研的弹性RDMA网络,可以实现秒级的大规模RDMA组网,满足大模型计算过程中海量数据的高效传输需求。面向开发者,阿里云还推出了AI计算部署工具FastGPU,使开发者无需关注计算、存储、网络等资源的部署操作,即可达到简单适配、一键部署、随处运行的效果。

在第三讲,于子淇首先会对AIGC模型的实现原理进行介绍,然后分享阿里云基于弹性RDMA的GPU云服务器的技术特性,以及使用FastGPU在GPU云服务器上进行LLaMA模型部署的流程和finetune原理。最后,于子淇将从计算图优化和通信优化两个方面,讲解基于AIACC的LLaMA模型部署性能优化,并展示优化后的实际效果。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...