面向HPC及AI的巨大飞跃，NVIDIA全新Ampere GPU架构深度解析

课程回放

DGX 2020/05/26 19:00:00

课程讲师

赖俊杰 NVIDIA 中国区工程及解决方案总监

赖博士在清华大学电子工程系取得本科及硕士学位，于法国INRIA获得博士学位。博士期间的主要的研究方向包括GPU架构研究，及GPU性能分析模型。在并行程序的性能分析，及性能优化领域有丰富的经验。现在工作的重点是带领团队协助NVIDIA的关键用户完成机器学习应用的工程落地，以及尝试利用机器学习的最新技术，去解决计算机视觉，语音，游戏等行业应用中遇到的实际问题。

赖俊杰

NVIDIA 中国区工程及解决方案总监

课程提纲

NVIDIA Ampere GPU 架构总览
第三代Tensor Core，及TF32应用深入解析
多实例GPU (Multi-Instance GPU）技术及应用场景
通过结构化稀疏 (Structual Sparsity) 进一步加速神经网络计算
第三代NVLink，NVSwitch 及 DGX A100解读

课程简介

在5月14日刚刚结束的GTC 2020发布会上，NVIDIA发布了新一代GPU架构“Ampere（安培）” ，并推出首款基于Ampere架构的GPU——NVIDIA A100 。相比上一代Volta架构V100 GPU，NVIDIA A100 GPU实现了5大技术突破：

1、Ampere架构，也是A100的核心，采用7nm工艺，包含540亿个晶体管，面积达到826mm²，是目前最大的7nm处理器；

2、第三代张量核心（Tensor Core），计算更加灵活、速度更快、使用更容易。其功能经过扩展后加入了专为AI开发的全新 TF32 精度，无需更改代码，可将AI计算速度提升至上一代的20倍。此外，张量核现已支持FP64，为HPC应用提供了比上一代多2.5倍的算力。

3、多实例GPU（MIG），可以将一个A100 GPU分割成多达7个独立的GPU实例，从而为不同任务提供灵活的算力支持，并确保GPU资源得到充分的利用；

4、第三代NVLink互联技术，使得GPU与GPU之间的互联带宽达到600GB/s，是PCIe 4.0带宽的10倍，能够大幅提升服务器的扩展性能；

5、结构稀疏性，A100 中的 Tensor Core 可为稀疏模型提供高达 2 倍的性能提升。虽然稀疏化功能对 AI 推理更为有益，但它也可用于改善模型训练的性能。

通过以上不同技术维度的升级组合，NVIDIA A100 GPU实现了迄今为止最大的性能飞跃，训练峰值算力达到312 TFLOPS，AI推理峰值算力达到1248 TOPS，将AI训练和推理性能提高到上一代的20倍。Ampere架构的发布也引发了大家的广泛关注。

为此，智东西公开课联合NVIDIA推出的Ampere GPU架构公开课，独家解密NVIDIA新一代GPU架构“Ampere（安培）”。

5月26日晚7点，Ampere GPU架构公开课将正式开讲，由NVIDIA中国区工程及解决方案总监赖俊杰博士主讲，主题为《面向HPC及AI的巨大飞跃，NVIDIA全新Ampere GPU架构深度解析》。

赖俊杰博士将围绕Ampere架构、新一代Tensor Core、多实例GPU、结构化稀疏性和第三代NVLink，NVSwitch技术，以及基于A100 GPU 打造的第三代AI系统DGX A100进行全方位解读。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...