NVIDIA是否计划对Tensor Core提供更细粒度的编程接口？（现有的wmma不利于构造高效的计算结构）

提问

问题出自：PAI自动混合精度训练的实现与应用

NVIDIA是否计划对Tensor Core提供更细粒度的编程接口？（现有的wmma不利于构造高效的计算结构）

2020-06-09 20:03:39

全部回答内容
登录之后查看

登录

NVIDIA系统架构师齐家兴：当前没有对Tensor Core提供更细粒度的接口，毕竟Tensor Core主要是针对4X4的矩阵乘法以及累加操作，也请继续关注CUDA版本的更新，如果有一些变...

回答

相关问答

请问老师存算一体（直接在存储器中嵌入算法加速矩阵运算）与tensor core加速矩阵乘加有何区别？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：关于这个问题我目前不太了解，无法回答你的问题。... 阅读全文〉
输出为FP32的话，那么下个layer的输入时，是要再从FP32转成FP16吗？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：是的，本质上人为改写模型时会出现大量的这种结构，比如前一层用的是FP32，后一层用的是FP16，你需要cast节点。如果设计的不够好，会产生大量的cast节点，这... 阅读全文〉
关于PAI-TAO，PyTorch这种eager计算的支持吗，如果是那是如何支持的？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣： PAI-TAO本质上是根据编译的思维来做的，所以对于PyTorch eager这种维度的解释执行没有一个Graph概念存在的框架，目前还暂时不支持编译优化的优化工... 阅读全文〉
Cast Fusion是前后两个op都是fp16所以可以fusion?
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：总体上主要有两个维度，一个是Cast Elimination，一个是Cast Fusion。Cast Elimination是指前后两个节点正好可以从FP16转化... 阅读全文〉
对于图改写算法，图的定义的原子单位是什么，是TensorFlow的layer的定义么？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：当前我们在TensorFlow图优化的算法还是使用TensorFlow的OP的定义，比如简单的有加减乘除还有剪辑等等，其实OP的定义是一个比较人为的定义，可以比较... 阅读全文〉
例子里提到了APEX支持scale loss，APEX是否也支持图优化?
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：针对APEX工具包，它也是实现了TensorFlow类似的图优化功能，将某些支持的OP转换为FP16，不支持的保持在FP32。... 阅读全文〉
是否需要提前确认Overflow是哪个原因引起的，或者已经确认FP32的模型没有Overflow问题？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：如果有Overflow会skip这个batch，不更新这个梯度。在开发的过程中也考虑到类似问题，但是在实验过程中，可能大部分情况下在FP32进行训练时，一些特定的... 阅读全文〉
用fp16的safe和unsafe op的区分的原则是什么？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴： safe以及unsafe op的区分有这样几个考量，一是op是否能够借助Tensor Core这种4X4的矩阵乘法以及累加来达到加速的功能，另外就是FP16本身的... 阅读全文〉
FP32 to FP16 cast是在Tensor Core里做还是CUDA Core里做的？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：因为从FP32到FP16的转换不涉及太多的计算，所以转换是在CUDA Core里进行的。... 阅读全文〉
是否可以介绍下TAO里关于内存访问密集型layer的优化？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：这里的优化原则就是对于访问密集型计算可以进行一定fusion，用于减少访存量。当然也没有那么简单，比如把相应的kernel结合在一起，如果底层没有Kernel支持... 阅读全文〉
MXNet这些框架都在做支持混合精度的API，那么PAI是不是在做重复的工作呢？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣： PAI在启动混合精度训练图改写的工作已经落地大半年了，相当于启动时间远早于英伟达，当然我们跟英伟达也有非常密切的合作，并且也得到了英伟达的高度评价，评价我们是第一... 阅读全文〉
NVIDIA的Tensor内核支不支持不同的数据维度存储顺序？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：当前对Tensor Core来说，比较底层的可以通过WMMA的API进行使用，在这里支持两种不同矩阵的存储格式，另外可以通过cuBLAS和cuDNN，如果问题是指... 阅读全文〉
除了训练，阿里有做推理框架的相关工作吗？速度怎么样？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：我们有推出PAI-Blade推理优化的框架，里面会有两个维度，一个是自动层优化，另一个是auto comprsssion的维度，目前来讲，在阿里内部已经广泛使用，... 阅读全文〉
混合精度训练是在cuDNN这一层支持吗，以前TensorRT层Plugin的精度基本是float32,将来Plugin是否也能支持混合精度？
2020-06-09 20:03:39

NVIDIA系统架构师齐家兴：混合精度训练是指对整个深度学习模型进行一些算法上的操作来进行训练的问题，那对于cuDNN，在具体的一些网络函数来对Tensor Core进行支持的，所以当前的cu... 阅读全文〉
不同深度模型的混合精度策略如何确定？有没有自动化方法？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：主要的问题是策略如何确定，在图改写的维度主要基于规则和底层硬件的特性来制定一个合理的规则，对于loss-scale策略是基于auto loss-scaling的自... 阅读全文〉
自动混合精度训练，如何选择自动化的参数？其效果的评估标准是什么？
2020-06-09 20:03:39

阿里巴巴高级算法工程师王梦娣：混合精度的概念在于FP16和FP32的混合，利用TensorCore进行加速，这里面的基本原则是一样的，只是在图改写时，自动改写是基于规则，希望在图改写的情况下性... 阅读全文〉