利用最强GPU DGX A100 640GB 系统加速超大规模AI计算

课程回放

DGX 2020/12/07 19:00:00

课程讲师

张景贵 NVIDIA 高级解决方案架构师

负责数据中心产品AI&HPC解决方案支持，拥有丰富的系统设计优化经验，主要工作内容为向NVIDIA合作伙伴提供技术讲解，支持伙伴的方案设计，部署实施，性能优化等。

张景贵

NVIDIA 高级解决方案架构师

课程提纲

超大规模AI计算对内存带宽的要求与挑战
最强GPU DGX A100 640GB 系统的特性
NVIDIA全新 DGX Station A100 工作组服务器解析
DGX 系统应用案例分析

课程简介

GPT-3一经发布就引起了业内的轰动，其网络架构中包含1750亿个参数，模型层数达到96层，是有史以来最复杂的语言模型，其训练数据规模更是达到了570GB。算法、算力和数据是人工智能的三大要素，算法模型越复杂，参数越多对算力的要求也会更多。但是，当一个神经网络模型达到GPT-3这样的规模，简单的提升算力，已经不能满足AI计算的需求，对内存容量和带宽的要求也越来越高。

11月17日，在2020全球超算大会上，NVIDIA发布NVIDIA A100 80GB GPU。全新A100采用HBM2e技术，可将A100 40GB GPU的高带宽内存增加一倍至80GB，提供每秒超过2TB的内存带宽；第三代NVLink和NVSwitch，相较于上一代互连技术，可使GPU之间的带宽增加至原来的两倍，将数据密集型工作负载的GPU数据传输速度提高至每秒600 gigabytes。使得数据可以快速传输到全球最快的数据中心GPU A100上，让研究人员能够更快地加速其应用，处理最大规模的模型和数据集。

DGX A100系统将配备全新NVIDIA A100 80GB GPU，使每个 DGX A100系统的 GPU 内存容量增加一倍，最高可达640GB；全新的DGX A100 640GB系统也将集成到NVIDIA DGX SuperPOD 参考架构，使科研机构能基于以20 个DGX A100系统为单位的一站式AI超级计算机，实现大规模AI模型的构建、训练和部署。

12月7日，智东西公开课推出 NVIDIA DGX A100 公开课，由NVIDIA高级系统架构师张景贵主讲，主题为《利用最强GPU DGX A100 640GB 系统加速超大规模AI计算》。

张景贵老师将从超大规模AI计算对内存带宽的要求和面临的挑战、NVIDIA最新的DGX A100 640GB 系统和DGX Station A100 工作组服务器的特性等方面展开，并结合实际应用案例详解如何加速超大规模AI计算。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...