绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
面向HPC及AI的巨大飞跃,NVIDIA全新Ampere GPU架构深度解析
NVLink与NVSwitch是什么关系?
2020-06-12 12:57:09
全部回答内容
登录之后查看
登录
NVIDIA中国区工程及解决方案总监赖俊杰: 我们做一个简单类比,NVLink可以认为是一个网线,NVSwitch认为是交换机,之前也强调过NVSwitch并不是一般意义上网络交换的设备,NVL...
回答
相关问答
请问INT4的算力为什么是INT8的2倍,而不是4倍?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 其实在各代的GPU都能发现类似的特点,比如FP16的性能是FP32的两倍,INT8是FP32的四倍等,我觉得这是硬件上比较正常的一个比例。...
阅读全文 〉
L2压缩是为inference设计的吗?还是training也能用?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: L2压缩不是针对特定的inference或training设计的,而是针对一般意义上数据中存在一些非结构化的稀疏性来设计的...
阅读全文 〉
Ampere架构GPU啥时能买得到?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: Ampere架构的GPU,目前需要通过购买DGX A100的机器才能用到,后续很多的OEM厂商也会推出基于A100的多种机型,大家可以再去购买。...
阅读全文 〉
NVLink 3.0通过12个X4 Link来支持双向600GB带宽,平均每个X4 link是50GB,这样的话,X16 link的双向带宽就有200GB,这个带宽已经超过PCIe 5.0的标准了,是这样吗?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 我看了下你算的数字应该是对的,其实不仅仅看是600GB还是200GB,用NVLink一个很重要的原因,在整个的讲解的过程中也提到过, PCIe有一些...
阅读全文 〉
我在用GPU做CFD的时候发现,同样的结构网格(比如把一块结构网格剖分成很多块),网格分区增加时,GPU加速迅速降低——这个可能是多种因素的结果,但其中是否意味着kernel的调度开销其实也挺大?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 从描述上来说,看起来用到的kernel数目并不多,到现在为止,只在一些网络甚至神经网络相关的一些博客里面看到有大量的小的up操作,当kernel数目...
阅读全文 〉
我是做HPC的,刚才赖博士说Tensor Core在HPC中由于精度问题不专门使用就会浪费,那么,有没有办法把它利用上呢?比如,通过算法将FP32的矩阵运算分解为多个FP16的Tensor Core运算?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 并不是Tensor Core在HPC应用里面,因为精度的关系用不上就是浪费,不管是FP64的Tensor Core还是更低精度的Tensor Cor...
阅读全文 〉
在NVSwitch下,多个GPU连接成了一个“大GPU”,程序中还需要显式给每个物理GPU分配负载呢?还是只需给这个大GPU分配负载,系统自动在各物理GPU间分配任务?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 在CUDA程序里,在写程序时还是要控制各个GPU的。...
阅读全文 〉
请问Tensor Core与structure sparse对于科学计算是否有用?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: Tensor Core对FP64(就是double的),对于很多用到double的矩阵乘的科学计算程序肯定有直接的帮助,甚至是像FP32、FP16这...
阅读全文 〉
L2 Cache 的 Data Compression 能用来做 sparse tensor core 的 data encoding 吗?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 这两个所用的场合或机制是有较大区别的,L2 Cache针对的是非结构化稀疏的场合,它会深入到每个数据的重复性或0的数目,对数据进行压缩。结构化稀疏是...
阅读全文 〉
MIG的各实例是程序员控制还是系统控制?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 可以讲由系统硬件Driver控制。...
阅读全文 〉
SR-IOV和MIG的关系是什么?A100是否支持SR-IOV?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 这两者之间是可以结合的,MIG是通过硬件上的改动来实现,但它可以结合VM和SR-IOV的技术,通过PCIe使GPU获得SR-IOV的特性。...
阅读全文 〉
请教一下,在A100上MPS技术会怎样演进,和MIG技术有哪些结合?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 实际上A100上面的MPS类似于V100上面对于MPS的处理的方式,就是把多个CUDA进程合并成一个CUDA Context之后,放到 GPU上面去...
阅读全文 〉
纹理内存究竟是单独的内存区域?还是gmem的一种特殊访问方式?(即,有限的究竟是纹理缓存还是纹理内存)
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 纹理内存更多的是global memory 一种特殊的访问模式,在cash部分,这些架构是有特殊的文件内存的,叫做texture cash。...
阅读全文 〉
如果不使用MIG,那么就可以使用8个GPU了?还有结构化稀疏支持两个矩阵都是稀疏的么?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 不是这样的,G100芯片最多用到108个SM。在A100上面,我们是针对深度神经网络的应用场景去做的,我们认为做权重的稀疏比做激活的稀疏,实现起来更...
阅读全文 〉
多个进程使用同一个GPU时,V100 和A100 GPU的资源调度上有什么不同?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 这两个之间没太大不同...
阅读全文 〉
如果不能retrain,sparsity能有多大的加速?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: Sparsity这种结构化技术是针对inference场景来设置的,结构化相当于我们对于这种稀疏性有一些特定的要求。换句话说一个随便的网络,我们按照...
阅读全文 〉
MIG是否可以替代GRID实现云端的GPU虚拟化?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 强调下MIG和vGPU不是一个相互替代的关系,而是可以去做一些相互的结合,特别是在云端,把MIG、vGPU及k8s这些技术结合起来,应该会有非常好的...
阅读全文 〉
MIG将来是不是会取代vGPU?有大致路线图吗?适配vGPU和适配MIG有没有升级问题?还是无缝升级?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 首先MIG和vGPU不是一个前后替代的关系,不是说有了MIG之后,vGPU就不用了,它们是一个可以互相结合的技术,换句话就是在A100上面,可以用传...
阅读全文 〉
MIG为什么是切成7份呢?不是8份或者其他?为了1份相当于1个V100?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 大家回忆下G100上有8个GPC,然后A100上其实是7个GPC,所以最多就是可以切成7个GPU的instance。并且对于7,其实也考虑到了计算、...
阅读全文 〉
CUDA的stream使得GPU计算具有粗粒度并行能力,那么,一般单卡使用多少stream比较合适?即:GPU卡的物理任务管理队列数量是多少?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 单卡用多少stream没有一个特别的说法,我们写一个多stream程序之后,在满足你的计算逻辑的前提下,你可以尝试去试下到底用多少个stream比较...
阅读全文 〉
GPU应用于HPC,通常最低需要单精度计算,此时半精度的Tensor Core是闲置了吗?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 对的,你可以这样去理解。我们有不同的计算单元,比如单个Tensor Core,或者说单精度、双精度的计算单元,用到其中一些,另外一些你可以认为它被闲...
阅读全文 〉