绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
基于NVIDIA A100 GPU的AI及HPC集群系统构建
高性能计算与 AI 2021/03/31 19:00:00
课程讲师
马四腾 NVIDIA 解决方案架构师

负责 NVIDIA 教科研行业 GPU 计算解决方案设计与研究,方向包括 GPU 在加速计算、深度学习和数据科学等领域的应用,GPU 的分布式并行计算加速,CUDA 及 OpenACC 的应用程序移植和性能优化;当前工作主要方向在材料计算相关应用的 GPU 平台加速,以及基于 AI 驱动的材料计算方法的探索和方案设计。

马四腾
NVIDIA 解决方案架构师

负责 NVIDIA 教科研行业 GPU 计算解决方案设计与研究,方向包括 GPU 在加速计算、深度学习和数据科学等领域的应用,GPU 的分布式并行计算加速,CUDA 及 OpenACC 的应用程序移植和性能优化;当前工作主要方向在材料计算相关应用的 GPU 平台加速,以及基于 AI 驱动的材料计算方法的探索和方案设计。

王波 思腾合力 资深解决方案架构师

近十年的加速计算解决方案构建及实施经验,擅长基于NVIDIA产品的AI与HPC集群设计;拥有信息系统项目管理师认证,在思腾合力主要负责售前团队及项目交付团队的管理。

王波
思腾合力 资深解决方案架构师

近十年的加速计算解决方案构建及实施经验,擅长基于NVIDIA产品的AI与HPC集群设计;拥有信息系统项目管理师认证,在思腾合力主要负责售前团队及项目交付团队的管理。

课程提纲
  • NVIDIA Ampere架构及NVIDIA A100 GPU介绍
  • 基于NVIDIA DGX™ A100的DGX SuperPOD™参考架构解读
  • 集群系统构建的难点
  • 思腾合力集群系统架构
  • 集群系统案例
课程简介

随着深度学习技术逐渐成熟,及其对更多数据、更大模型和更强算力的需求,传统计算机已无法满足其需求,越来越多的深度学习应用开始在HPC上运行,比如药物研发、电影特效渲染、金融防欺诈等。

HPC集群系统的构建是一个极其复杂的过程,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求也非常高,还需要综合考虑系统的安全性、能源利用率、散热等诸多方面的因素,技术门槛极高。如何构建一个高性能、灵活可扩展的HPC集群系统为科学计算和深度学习提供高效的算力支持,是科研人员面临的重要挑战之一。

在GTC 2020发布会上,NVIDIA 展示了新一代NVIDIA DGX SuperPOD™。该集群利用 Mellanox HDR 200Gbps InfiniBand 互连技术,将140台NVIDIA DGX™ A100 系统结合在一起,构建了NVIDIA DGX SuperPOD™ AI超级计算机,AI计算能力高达700 Petaflops,已应用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。

为帮助客户利用NVIDIA DGX™ A100快速构建自己的HPC集群系统,NVIDIA 还发布了全新的NVIDIA DGX SuperPOD™ 参考架构,其中NVIDIA Mellanox技术架构能以最快的速度并行处理解决那些最复杂的问题,同时该网络架构极具灵活性与可扩展性。通过全新NVIDIA DGX SuperPOD™ 参考架构,企业可以借鉴NVIDIA所采取的设计原则和最佳实践经验,提升HPC集群系统的构建效率,缩短交付时间。

思腾合力专注于人工智能领域,提供深度学习、GPU高性能计算、虚拟化、分布式存储、集群管理等产品和整体解决方案,也是NVIDIA的的重要合作伙伴之一。目前,从事 AI 领域研究、高性能计算的重点高校80%都采用了思腾合力的产品及解决方案,为各专业老师和同学们的科学实验研究提供了优秀的GPU加速解决方案。

3月31日,智东西公开课与思腾合力联合推出「AI & HPC集群系统公开课」,由NVIDIA解决方案架构师马四腾、思腾合力资深解决方案架构师王波共同主讲,主题为《基于NVIDIA A100 GPU的AI及HPC集群系统构建》。

马四腾老师将从NVIDIA Ampere架构、NVIDIA A100 GPU、NVIDIA DGX™ A100到NVIDIA DGX SuperPOD™ 参考架构等方面,系统讲解NVIDIA算力扩展方案及GPU资源的管理和使用;

王波老师将从HPC集群系统的构建难点出发,结合思腾合力集群系统架构和实际案例,为我们系统讲解如何快速构建HPC集群系统。

本次公开课讲解包含主讲和问答两个环节。主讲环节60分钟,两位老师将会通过视频直播的形式进行实时讲解;问答环节30分钟,讲师将会通过语音形式在直播间回答大家提问的问题。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...