绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
飞桨平台多GPU并行训练方案解析
1、请问对于参数量巨大的预训练模型,有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架,PADDLEPADDLE还没试过,模型并行需要修改代码,得好好研究一下
2020-05-20 19:58:14
全部回答内容
登录之后查看
登录
百度深度学习技术平台部资深研发工程师刘毅: 如果是OOM问题的话,比较推荐recompute。或者对模型参数比较熟悉,也可以执行做模型并行,不过执行做模型并行的话,有些难度,执行->自行。 如果你...
回答
相关问答
GPU卡的类型比较多,如何整合飞桨这样的平台
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 这个问题可以从两部分来说,一部分是飞桨如何针对不同的GPU卡去做优化和支持,飞桨其实已经做了很好的工作,针对不同的卡的特性P40或V100,比...
阅读全文 〉
NCCL允许用户自己改拓扑吗?
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: NCCL可以去让用户去设定拓扑,但一般建议不要这样去做,建议用NCCL自我发现的一个拓扑去测试。因为一般对一种特定的系统,比如说8卡的V100...
阅读全文 〉
1、老师有推荐的水冷GPU服务沒,我在北京只找到一家叫蓝海云的在做。 2、是不是GPU卡越多越好
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 液冷的GPU服务器,现在就更多的还是一个冷管的液冷方式,不是那种浸泡式的液冷,然后冷管式的GPU的话,NVIDIA有一款性能要比服务器性能相当...
阅读全文 〉
可以在普通的n卡上训练吗
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 普通的N卡可以理解为是游戏那种显卡及ps卡,或者是1080这些RTX系列的卡,而这些卡都可以运用领口,但是由于这些卡没有高速的linux的通信...
阅读全文 〉
1、apollo的目标检测模型用了多少数据量啊 2、nccl是只针对飞浆的库吗
2020-05-20 19:58:14
百度深度学习技术平台部资深研发工程师刘毅: 抱歉,apollo不属于飞桨平台范畴,暂时无法提供此问题的答案 no NVIDIA 中国区HPC/DL 解决方案架构师程帅: 其实不是的,刚才PPT...
阅读全文 〉
飞桨平台是开放式平台吗?算力工厂是否可以为其提供GPU算力
2020-05-20 19:58:14
百度深度学习技术平台部资深研发工程师刘毅: 飞桨平台是开源开放的。算力可以参考下aistudio...
阅读全文 〉
请教老师,Recompute模式比不释放显存的方式会慢多少呢?请问有相应文章吗?
2020-05-20 19:58:14
百度深度学习技术平台部资深研发工程师刘毅: recompute目前我们在自研阶段,今年NIPS有一些相关文件可以搜索了解一下。 性能慢的幅度跟具体模型有关,目前已知resnet50模型损失最大值是3...
阅读全文 〉
allreduce只是针对数据并行采取的方案吗,allreduce是不是每个节点都要保存模型全部参数,如果节点容纳不下怎么办
2020-05-20 19:58:14
百度深度学习技术平台部资深研发工程师刘毅: 如果节点存放不下,就需要用模型并行方案,如我刚才PPT里介绍的大规模分类模型并行解决方案 NVIDIA 中国区HPC/DL 解决方案架构师程帅: 答案...
阅读全文 〉
1、动态图与静态图的优缺点是什么?其各自的适应场景是怎样的? 2、线上推理引擎,单台机器内存无法容纳大模型,分布式方法有哪些?有什么优缺点?
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 动态图的优点就是可以及时的获取到当前操作的一些tensor的信息,这样对于像做research或者说是调试相对来说是比较容易的。但是静态图的话...
阅读全文 〉
飞桨是否有结合k8s做多机多卡的方案?
2020-05-20 19:58:14
百度深度学习技术平台部资深研发工程师刘毅: 这块儿是有的,在我们内部有一个实验性质的平台去做K8S的这种跟配件的继承,同时我们对外的百度云上面也有类似的一些服务。...
阅读全文 〉
在大规模分布式训练过程中,如何做到计算和通信重叠?
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 在GPU里面的话,因为通信的过程中和训练过程中其实底层都是CUDA,然后对于CUDA,它可以通过多流的方式做到有计算是一个或一些kernel,...
阅读全文 〉
多GPU训练,如何比较好的资源调度做到程序稳定(多GPU的调度策略)?
2020-05-20 19:58:14
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 这是一个就是GPU集群管理调度的一个问题,现在主流的GPU系统在国内可以分成2部分,一类是交通系统,一类是基于容器的一个比如K8S的调度编排的...
阅读全文 〉