绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智东西公开课
智东西
车东西
芯东西
公开课
公开课官网
公开课小程序
GTIC/GACS
预告
合辑
专场
下载
提问
|
回答
提问
分享到:
问题出自:
面向HPC及AI的巨大飞跃,NVIDIA全新Ampere GPU架构深度解析
Ampere架构GPU啥时能买得到?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: Ampere架构的GPU,目前需要通过购买DGX A100的机器才能用到,后续很多的OEM厂商也会推出基于A100的多种机型,大家可以再去购买。
回答
相关问答
请问INT4的算力为什么是INT8的2倍,而不是4倍?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 其实在各代的GPU都能发现类似的特点,比如FP16的性能是FP32的两倍,INT8是FP32的四倍等,我觉得这是硬件上比较正常的一个比例。...
阅读全文 〉
L2压缩是为inference设计的吗?还是training也能用?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: L2压缩不是针对特定的inference或training设计的,而是针对一般意义上数据中存在一些非结构化的稀疏性来设计的...
阅读全文 〉
NVLink 3.0通过12个X4 Link来支持双向600GB带宽,平均每个X4 link是50GB,这样的话,X16 link的双向带宽就有200GB,这个带宽已经超过PCIe 5.0的标准了,是这样吗?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 我看了下你算的数字应该是对的,其实不仅仅看是600GB还是200GB,用NVLink一个很重要的原因,在整个的讲解的过程中也提到过, PCIe有一些...
阅读全文 〉
我在用GPU做CFD的时候发现,同样的结构网格(比如把一块结构网格剖分成很多块),网格分区增加时,GPU加速迅速降低——这个可能是多种因素的结果,但其中是否意味着kernel的调度开销其实也挺大?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 从描述上来说,看起来用到的kernel数目并不多,到现在为止,只在一些网络甚至神经网络相关的一些博客里面看到有大量的小的up操作,当kernel数目...
阅读全文 〉
我是做HPC的,刚才赖博士说Tensor Core在HPC中由于精度问题不专门使用就会浪费,那么,有没有办法把它利用上呢?比如,通过算法将FP32的矩阵运算分解为多个FP16的Tensor Core运算?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 并不是Tensor Core在HPC应用里面,因为精度的关系用不上就是浪费,不管是FP64的Tensor Core还是更低精度的Tensor Cor...
阅读全文 〉
在NVSwitch下,多个GPU连接成了一个“大GPU”,程序中还需要显式给每个物理GPU分配负载呢?还是只需给这个大GPU分配负载,系统自动在各物理GPU间分配任务?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 在CUDA程序里,在写程序时还是要控制各个GPU的。...
阅读全文 〉
NVLink与NVSwitch是什么关系?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 我们做一个简单类比,NVLink可以认为是一个网线,NVSwitch认为是交换机,之前也强调过NVSwitch并不是一般意义上网络交换的设备,NVL...
阅读全文 〉
请问Tensor Core与structure sparse对于科学计算是否有用?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: Tensor Core对FP64(就是double的),对于很多用到double的矩阵乘的科学计算程序肯定有直接的帮助,甚至是像FP32、FP16这...
阅读全文 〉
L2 Cache 的 Data Compression 能用来做 sparse tensor core 的 data encoding 吗?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 这两个所用的场合或机制是有较大区别的,L2 Cache针对的是非结构化稀疏的场合,它会深入到每个数据的重复性或0的数目,对数据进行压缩。结构化稀疏是...
阅读全文 〉
MIG的各实例是程序员控制还是系统控制?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 可以讲由系统硬件Driver控制。...
阅读全文 〉
SR-IOV和MIG的关系是什么?A100是否支持SR-IOV?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 这两者之间是可以结合的,MIG是通过硬件上的改动来实现,但它可以结合VM和SR-IOV的技术,通过PCIe使GPU获得SR-IOV的特性。...
阅读全文 〉
请教一下,在A100上MPS技术会怎样演进,和MIG技术有哪些结合?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 实际上A100上面的MPS类似于V100上面对于MPS的处理的方式,就是把多个CUDA进程合并成一个CUDA Context之后,放到 GPU上面去...
阅读全文 〉
纹理内存究竟是单独的内存区域?还是gmem的一种特殊访问方式?(即,有限的究竟是纹理缓存还是纹理内存)
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 纹理内存更多的是global memory 一种特殊的访问模式,在cash部分,这些架构是有特殊的文件内存的,叫做texture cash。...
阅读全文 〉
如果不使用MIG,那么就可以使用8个GPU了?还有结构化稀疏支持两个矩阵都是稀疏的么?
2020-06-12 12:57:09
NVIDIA中国区工程及解决方案总监赖俊杰: 不是这样的,G100芯片最多用到108个SM。在A100上面,我们是针对深度神经网络的应用场景去做的,我们认为做权重的稀疏比做激活的稀疏,实现起来更...
阅读全文 〉
多个进程使用同一个GPU时,V100 和A100 GPU的资源调度上有什么不同?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 这两个之间没太大不同...
阅读全文 〉
如果不能retrain,sparsity能有多大的加速?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: Sparsity这种结构化技术是针对inference场景来设置的,结构化相当于我们对于这种稀疏性有一些特定的要求。换句话说一个随便的网络,我们按照...
阅读全文 〉
MIG是否可以替代GRID实现云端的GPU虚拟化?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 强调下MIG和vGPU不是一个相互替代的关系,而是可以去做一些相互的结合,特别是在云端,把MIG、vGPU及k8s这些技术结合起来,应该会有非常好的...
阅读全文 〉
MIG将来是不是会取代vGPU?有大致路线图吗?适配vGPU和适配MIG有没有升级问题?还是无缝升级?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 首先MIG和vGPU不是一个前后替代的关系,不是说有了MIG之后,vGPU就不用了,它们是一个可以互相结合的技术,换句话就是在A100上面,可以用传...
阅读全文 〉
MIG为什么是切成7份呢?不是8份或者其他?为了1份相当于1个V100?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 大家回忆下G100上有8个GPC,然后A100上其实是7个GPC,所以最多就是可以切成7个GPU的instance。并且对于7,其实也考虑到了计算、...
阅读全文 〉
CUDA的stream使得GPU计算具有粗粒度并行能力,那么,一般单卡使用多少stream比较合适?即:GPU卡的物理任务管理队列数量是多少?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 单卡用多少stream没有一个特别的说法,我们写一个多stream程序之后,在满足你的计算逻辑的前提下,你可以尝试去试下到底用多少个stream比较...
阅读全文 〉
GPU应用于HPC,通常最低需要单精度计算,此时半精度的Tensor Core是闲置了吗?
2020-06-12 12:57:08
NVIDIA中国区工程及解决方案总监赖俊杰: 对的,你可以这样去理解。我们有不同的计算单元,比如单个Tensor Core,或者说单精度、双精度的计算单元,用到其中一些,另外一些你可以认为它被闲...
阅读全文 〉