我是做HPC的，刚才赖博士说Tensor Core在HPC中由于精度问题不专门使用就会浪费，那么，有没有办法把它利用上呢？比如，通过算法将FP32的矩阵运算分解为多个FP16的Tensor Core运算？

提问

问题出自：面向HPC及AI的巨大飞跃，NVIDIA全新Ampere GPU架构深度解析

我是做HPC的，刚才赖博士说Tensor Core在HPC中由于精度问题不专门使用就会浪费，那么，有没有办法把它利用上呢？比如，通过算法将FP32的矩阵运算分解为多个FP16的Tensor Core运算？

2020-06-12 12:57:09

全部回答内容
登录之后查看

登录

NVIDIA中国区工程及解决方案总监赖俊杰：并不是Tensor Core在HPC应用里面，因为精度的关系用不上就是浪费，不管是FP64的Tensor Core还是更低精度的Tensor Cor...

回答

相关问答

请问INT4的算力为什么是INT8的2倍，而不是4倍？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：其实在各代的GPU都能发现类似的特点，比如FP16的性能是FP32的两倍，INT8是FP32的四倍等，我觉得这是硬件上比较正常的一个比例。... 阅读全文〉
L2压缩是为inference设计的吗？还是training也能用？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰： L2压缩不是针对特定的inference或training设计的，而是针对一般意义上数据中存在一些非结构化的稀疏性来设计的... 阅读全文〉
Ampere架构GPU啥时能买得到？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰： Ampere架构的GPU，目前需要通过购买DGX A100的机器才能用到，后续很多的OEM厂商也会推出基于A100的多种机型，大家可以再去购买。... 阅读全文〉
NVLink 3.0通过12个X4 Link来支持双向600GB带宽，平均每个X4 link是50GB，这样的话，X16 link的双向带宽就有200GB，这个带宽已经超过PCIe 5.0的标准了，是这样吗？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：我看了下你算的数字应该是对的，其实不仅仅看是600GB还是200GB，用NVLink一个很重要的原因，在整个的讲解的过程中也提到过, PCIe有一些... 阅读全文〉
我在用GPU做CFD的时候发现，同样的结构网格（比如把一块结构网格剖分成很多块），网格分区增加时，GPU加速迅速降低——这个可能是多种因素的结果，但其中是否意味着kernel的调度开销其实也挺大？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：从描述上来说，看起来用到的kernel数目并不多，到现在为止，只在一些网络甚至神经网络相关的一些博客里面看到有大量的小的up操作，当kernel数目... 阅读全文〉
在NVSwitch下，多个GPU连接成了一个“大GPU”，程序中还需要显式给每个物理GPU分配负载呢？还是只需给这个大GPU分配负载，系统自动在各物理GPU间分配任务？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：在CUDA程序里，在写程序时还是要控制各个GPU的。... 阅读全文〉
NVLink与NVSwitch是什么关系？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：我们做一个简单类比，NVLink可以认为是一个网线，NVSwitch认为是交换机，之前也强调过NVSwitch并不是一般意义上网络交换的设备，NVL... 阅读全文〉
请问Tensor Core与structure sparse对于科学计算是否有用?
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰： Tensor Core对FP64（就是double的），对于很多用到double的矩阵乘的科学计算程序肯定有直接的帮助，甚至是像FP32、FP16这... 阅读全文〉
L2 Cache 的 Data Compression 能用来做 sparse tensor core 的 data encoding 吗？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：这两个所用的场合或机制是有较大区别的，L2 Cache针对的是非结构化稀疏的场合，它会深入到每个数据的重复性或0的数目，对数据进行压缩。结构化稀疏是... 阅读全文〉
MIG的各实例是程序员控制还是系统控制？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：可以讲由系统硬件Driver控制。... 阅读全文〉
SR-IOV和MIG的关系是什么？A100是否支持SR-IOV？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：这两者之间是可以结合的，MIG是通过硬件上的改动来实现，但它可以结合VM和SR-IOV的技术，通过PCIe使GPU获得SR-IOV的特性。... 阅读全文〉
请教一下，在A100上MPS技术会怎样演进，和MIG技术有哪些结合？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：实际上A100上面的MPS类似于V100上面对于MPS的处理的方式，就是把多个CUDA进程合并成一个CUDA Context之后，放到 GPU上面去... 阅读全文〉
纹理内存究竟是单独的内存区域？还是gmem的一种特殊访问方式？（即，有限的究竟是纹理缓存还是纹理内存）
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：纹理内存更多的是global memory 一种特殊的访问模式，在cash部分，这些架构是有特殊的文件内存的，叫做texture cash。... 阅读全文〉
如果不使用MIG，那么就可以使用8个GPU了？还有结构化稀疏支持两个矩阵都是稀疏的么？
2020-06-12 12:57:09

NVIDIA中国区工程及解决方案总监赖俊杰：不是这样的，G100芯片最多用到108个SM。在A100上面，我们是针对深度神经网络的应用场景去做的,我们认为做权重的稀疏比做激活的稀疏，实现起来更... 阅读全文〉
多个进程使用同一个GPU时，V100 和A100 GPU的资源调度上有什么不同？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：这两个之间没太大不同... 阅读全文〉
如果不能retrain，sparsity能有多大的加速？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰： Sparsity这种结构化技术是针对inference场景来设置的，结构化相当于我们对于这种稀疏性有一些特定的要求。换句话说一个随便的网络，我们按照... 阅读全文〉
MIG是否可以替代GRID实现云端的GPU虚拟化？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：强调下MIG和vGPU不是一个相互替代的关系，而是可以去做一些相互的结合，特别是在云端，把MIG、vGPU及k8s这些技术结合起来，应该会有非常好的... 阅读全文〉
MIG将来是不是会取代vGPU？有大致路线图吗？适配vGPU和适配MIG有没有升级问题？还是无缝升级？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：首先MIG和vGPU不是一个前后替代的关系，不是说有了MIG之后,vGPU就不用了，它们是一个可以互相结合的技术，换句话就是在A100上面，可以用传... 阅读全文〉
MIG为什么是切成7份呢？不是8份或者其他？为了1份相当于1个V100？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：大家回忆下G100上有8个GPC，然后A100上其实是7个GPC,所以最多就是可以切成7个GPU的instance。并且对于7,其实也考虑到了计算、... 阅读全文〉
CUDA的stream使得GPU计算具有粗粒度并行能力，那么，一般单卡使用多少stream比较合适？即：GPU卡的物理任务管理队列数量是多少？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：单卡用多少stream没有一个特别的说法，我们写一个多stream程序之后，在满足你的计算逻辑的前提下，你可以尝试去试下到底用多少个stream比较... 阅读全文〉
GPU应用于HPC，通常最低需要单精度计算，此时半精度的Tensor Core是闲置了吗？
2020-06-12 12:57:08

NVIDIA中国区工程及解决方案总监赖俊杰：对的，你可以这样去理解。我们有不同的计算单元，比如单个Tensor Core，或者说单精度、双精度的计算单元，用到其中一些，另外一些你可以认为它被闲... 阅读全文〉