1、请问对于参数量巨大的预训练模型，有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架，PADDLEPADDLE还没试过，模型并行需要修改代码，得好好研究一下

提问

问题出自：飞桨平台多GPU并行训练方案解析

1、请问对于参数量巨大的预训练模型，有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架，PADDLEPADDLE还没试过，模型并行需要修改代码，得好好研究一下

2020-05-20 19:58:14

全部回答内容
登录之后查看

登录

百度深度学习技术平台部资深研发工程师刘毅：如果是OOM问题的话，比较推荐recompute。或者对模型参数比较熟悉，也可以执行做模型并行，不过执行做模型并行的话，有些难度，执行->自行。如果你...

回答

相关问答

GPU卡的类型比较多，如何整合飞桨这样的平台
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：这个问题可以从两部分来说，一部分是飞桨如何针对不同的GPU卡去做优化和支持，飞桨其实已经做了很好的工作，针对不同的卡的特性P40或V100，比... 阅读全文〉
NCCL允许用户自己改拓扑吗？
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅： NCCL可以去让用户去设定拓扑，但一般建议不要这样去做，建议用NCCL自我发现的一个拓扑去测试。因为一般对一种特定的系统，比如说8卡的V100... 阅读全文〉
1、老师有推荐的水冷GPU服务沒，我在北京只找到一家叫蓝海云的在做。 2、是不是GPU卡越多越好
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：液冷的GPU服务器，现在就更多的还是一个冷管的液冷方式，不是那种浸泡式的液冷，然后冷管式的GPU的话，NVIDIA有一款性能要比服务器性能相当... 阅读全文〉
可以在普通的n卡上训练吗
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：普通的N卡可以理解为是游戏那种显卡及ps卡，或者是1080这些RTX系列的卡，而这些卡都可以运用领口，但是由于这些卡没有高速的linux的通信... 阅读全文〉
1、apollo的目标检测模型用了多少数据量啊 2、nccl是只针对飞浆的库吗
2020-05-20 19:58:14

百度深度学习技术平台部资深研发工程师刘毅：抱歉，apollo不属于飞桨平台范畴，暂时无法提供此问题的答案 no NVIDIA 中国区HPC/DL 解决方案架构师程帅：其实不是的，刚才PPT... 阅读全文〉
飞桨平台是开放式平台吗？算力工厂是否可以为其提供GPU算力
2020-05-20 19:58:14

百度深度学习技术平台部资深研发工程师刘毅：飞桨平台是开源开放的。算力可以参考下aistudio... 阅读全文〉
请教老师，Recompute模式比不释放显存的方式会慢多少呢？请问有相应文章吗？
2020-05-20 19:58:14

百度深度学习技术平台部资深研发工程师刘毅： recompute目前我们在自研阶段，今年NIPS有一些相关文件可以搜索了解一下。性能慢的幅度跟具体模型有关，目前已知resnet50模型损失最大值是3... 阅读全文〉
allreduce只是针对数据并行采取的方案吗，allreduce是不是每个节点都要保存模型全部参数，如果节点容纳不下怎么办
2020-05-20 19:58:14

百度深度学习技术平台部资深研发工程师刘毅：如果节点存放不下，就需要用模型并行方案，如我刚才PPT里介绍的大规模分类模型并行解决方案 NVIDIA 中国区HPC/DL 解决方案架构师程帅：答案... 阅读全文〉
1、动态图与静态图的优缺点是什么？其各自的适应场景是怎样的？ 2、线上推理引擎，单台机器内存无法容纳大模型，分布式方法有哪些？有什么优缺点？
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：动态图的优点就是可以及时的获取到当前操作的一些tensor的信息，这样对于像做research或者说是调试相对来说是比较容易的。但是静态图的话... 阅读全文〉
飞桨是否有结合k8s做多机多卡的方案？
2020-05-20 19:58:14

百度深度学习技术平台部资深研发工程师刘毅：这块儿是有的，在我们内部有一个实验性质的平台去做K8S的这种跟配件的继承，同时我们对外的百度云上面也有类似的一些服务。... 阅读全文〉
在大规模分布式训练过程中，如何做到计算和通信重叠？
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：在GPU里面的话，因为通信的过程中和训练过程中其实底层都是CUDA，然后对于CUDA，它可以通过多流的方式做到有计算是一个或一些kernel，... 阅读全文〉
多GPU训练，如何比较好的资源调度做到程序稳定（多GPU的调度策略）？
2020-05-20 19:58:14

NVIDIA 中国区HPC/DL 解决方案架构师程帅：这是一个就是GPU集群管理调度的一个问题，现在主流的GPU系统在国内可以分成2部分，一类是交通系统，一类是基于容器的一个比如K8S的调度编排的... 阅读全文〉