绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
短视频场景的AI应用推理与优化
短视频场景中主流的AI推理模型有哪些?优劣对比怎样?
2020-05-27 10:09:26
全部回答内容
登录之后查看
登录
NVIDIA数据科学家徐添豪: 刚才我在介绍的过程当中,已经讲了很多关于AI的场景。关于优劣对比,我觉得在对工程化的方法来说没有优和劣,只有最适合,每个模型到底在什么场景下该用什么结构,其实是跟业务...
回答
相关问答
每次是重现开始新的训练,模型效果会提升
2020-05-27 10:09:27
NVIDIA数据科学家徐添豪: 主要有两个点,一是初始化可能导致结果不一样,另一个是现在的框架大多是non-deterministic的,并不能保证每次训练同样的参数同样的过程结果一致...
阅读全文 〉
训练模型的时候,发现多次训练,模型的推理能力会有提升,这是偶然事件吗?
2020-05-27 10:09:27
NVIDIA数据科学家徐添豪: 如果是模型的效果上,这种情况有可能发生,相当于你的模型可能还没有完全到达训练完成的阶段。如果是计算速度的提升这块,到底是什么场景会导致这一个点,我觉得需要详细的分析一...
阅读全文 〉
T4 4卡负载率低的问题如何解决?硬件还是软件?
2020-05-27 10:09:27
NVIDIA数据科学家徐添豪: 从软件角度来看,不太确定用的是哪一个框架,不同的框架实现了同一个算法,可能在载率上是不太一样的,可以借助刚才提到的Nsightsystems去分析瓶颈到底出现在哪。如...
阅读全文 〉
请问MPS在推理中是否有使用价值,刚在您提到相对多流,性能仅有一点点提升。实际场景中,多流并发处理带来的价值是否更大?
2020-05-27 10:09:27
NVIDIA数据科学家徐添豪: 多流在多线程情况下能很好的集成进原来的系统...
阅读全文 〉
多进程使用单张T4推理时,是否可以用MPS提升T4利用率和latency性能?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 如果是多进程的情况下,完全可以用MPS来做。对于MPS,我们之前也做过一些类似的对比,MPS的多进程单流会比单进程多流的方式可能性能上会好一些,比latency会稍微...
阅读全文 〉
短视频推荐算法引擎应用场景中,如何解决多卡负载利用率低的瓶颈?硬件还是软件优化?举例最好
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 我的理解它是分2块,第一块是在硬件上,就是在CPU和GPU的配比上可以做一些考虑。包括像之前GTC上百度介绍的一些内容,其实会涉及到整个大embedding tabl...
阅读全文 〉
量化在nlp问题上应用怎样?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 对于NLP问题,我举一个现在非常火的例子,就是关于BERT的量化。对于这个模型,在现实应用中会有很多的修改,比如说我的层数会比较少,或者检查头数上,以及对应的参数都会...
阅读全文 〉
UGC内容视频审核场景下,如何利用T4的新特性提升效率?(如果能用具体算法举例就更好了)
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 从算法的角度来说,主要是通过量化和低精度方面去做软件方面的设计。当然硬件上就是通过T4本身提供的能力来做计算效率的提升。就是T4刚才提到了这样一些新特性,其实这个新特...
阅读全文 〉
短视频场景中的广告推荐,如何利用T4的特性来设计和优化算法以提升推理效率?如何有针对冷启动场景的案例就更好了?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 在整个pipeline当中视频会去被模型理解,然后输出一些内容来提供给推荐系统,这样其实就分两部分,一部分是关于视频理解的,可以去做基于T4的推理,然后是关于推荐系统...
阅读全文 〉
短视频AI推理, 个人理解有时需要多个模型串联执行, 如何有效做到低延迟?模型部署的时候如何做model accelaration?(硬件还是软件)
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 第一块是当你视频解码出来之后,prime其实可以并发的去做推理,在GPU上做并发,其实一般如果是单进程的程序的话,进程内可以做多流的推理,这时候它在GPU上的执行器是...
阅读全文 〉
GPU有没有一些debug技巧
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 借用一些工具Nsight和Nsightcompute来帮助分析workload在哪,如果是调试代码通不通,其实你可以选择像CUDA这样的工具。如果是看GPU的显存泄漏...
阅读全文 〉
短视频场景中的AI推理普遍使用什么网络模型?计算瓶颈在哪里?如何观察出该任务的计算瓶颈?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 其实在数据处理时,其他网络结构也会有一些瓶颈,我们可以借助一些工具。对于找到计算的瓶颈,本身CPU上也会有一系列的工具,framework也会提供一系列工具,比如Te...
阅读全文 〉
使用T4对这些AI推理模型加速时,对CPU、内存、硬盘和网络带宽有什么依赖要求?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 在做模型推理的时候,首先要考虑CPU和GPU的配比,每个场景的配比都不太一样。在短视频的workload整个pipeline里面有解码,如果CPU资源赋有富裕,那这时...
阅读全文 〉
使用T4对这些AI推理模型加速时,采用传统物理机部署和使用云服务器部署,在使用和性能上有什么差异?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 其实现在的很多场景都部署在物理机上,云服务的好处是可以动态的进行资源的申请,这样就不用考虑高峰期的资源复用问题,只需要在高峰时期弹性的申请资源。对于传统物理机的部署的...
阅读全文 〉
预处理中的的resize有什么比较好的解决办法?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 现在我们在DALI这个库,大家可以去Google下DALI这个库,它里面提供了resize的GPU上的实现,可以尝试使用这个resize。...
阅读全文 〉
使用NPPI做YUV->RGB的CSC转换的时候,batch在一起和单独做有什么性能上的区别吗?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: NPPI在GPU上其实是一个CUDA写的库,他在做YUV到RGB转换时,也是调用了CUDA的能力,对于CUDA的计算在batch的情况下,相当于提高了单个问题的计算复...
阅读全文 〉
图像frame如何在内存中高效保存,除了用YUV格式以外有没有更节约内存的格式?
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 当你去用其他格式,一般都是有损做转换,如果你考虑到不进行这种转换的话,可以复用frame的数据,然后尽量在接下来的方法里面完成处理,而不是把它一直存在内存当中。...
阅读全文 〉
短视频中如何解决跨机器传输图像frame的问题,压缩太慢,不压缩传输时间太长。
2020-05-27 10:09:26
NVIDIA数据科学家徐添豪: 可分这两部分,一个是压缩太慢,在压缩过程中可以去做一些有损压缩,比如说把它存成JPGE,在GPU上已经有相关解决方案,通过NVJPEG可以做JPGE的编码和解码,压缩...
阅读全文 〉