- 课程回放
- NVIDIA Ampere GPU 架构总览
- 第三代Tensor Core,及TF32应用深入解析
- 多实例GPU (Multi-Instance GPU)技术及应用场景
- 通过结构化稀疏 (Structual Sparsity) 进一步加速神经网络计算
- 第三代NVLink,NVSwitch 及 DGX A100解读
在5月14日刚刚结束的GTC 2020发布会上,NVIDIA发布了新一代GPU架构“Ampere(安培)” ,并推出首款基于Ampere架构的GPU——NVIDIA A100 。相比上一代Volta架构V100 GPU,NVIDIA A100 GPU实现了5大技术突破:
1、Ampere架构,也是A100的核心,采用7nm工艺,包含540亿个晶体管,面积达到826mm²,是目前最大的7nm处理器;
2、第三代张量核心(Tensor Core),计算更加灵活、速度更快、使用更容易。其功能经过扩展后加入了专为AI开发的全新 TF32 精度,无需更改代码,可将AI计算速度提升至上一代的20倍。此外,张量核现已支持FP64,为HPC应用提供了比上一代多2.5倍的算力。
3、多实例GPU(MIG),可以将一个A100 GPU分割成多达7个独立的GPU实例,从而为不同任务提供灵活的算力支持,并确保GPU资源得到充分的利用;
4、第三代NVLink互联技术,使得GPU与GPU之间的互联带宽达到600GB/s,是PCIe 4.0带宽的10倍,能够大幅提升服务器的扩展性能;
5、结构稀疏性,A100 中的 Tensor Core 可为稀疏模型提供高达 2 倍的性能提升。虽然稀疏化功能对 AI 推理更为有益,但它也可用于改善模型训练的性能。
通过以上不同技术维度的升级组合,NVIDIA A100 GPU实现了迄今为止最大的性能飞跃,训练峰值算力达到312 TFLOPS,AI推理峰值算力达到1248 TOPS,将AI训练和推理性能提高到上一代的20倍。Ampere架构的发布也引发了大家的广泛关注。
为此,智东西公开课联合NVIDIA推出的Ampere GPU架构公开课,独家解密NVIDIA新一代GPU架构“Ampere(安培)”。
5月26日晚7点,Ampere GPU架构公开课将正式开讲,由NVIDIA中国区工程及解决方案总监赖俊杰博士主讲,主题为《面向HPC及AI的巨大飞跃,NVIDIA全新Ampere GPU架构深度解析》。
赖俊杰博士将围绕Ampere架构、新一代Tensor Core、多实例GPU、结构化稀疏性和第三代NVLink,NVSwitch技术,以及基于A100 GPU 打造的第三代AI系统DGX A100进行全方位解读。