绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
使用TensorRT Inference Server加速深度学习模型的部署
GRPC和HTTP提交请求,哪个更好?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server本身是支持这两种提交请求的方法,没有说哪种方法更优越一些,这还是要看您的应用和具体的架构。
回答
相关问答
在什么硬件要求下才能建立这样的一个Server,必须V100,P4这类高档DGX吗?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 其实只要GPU有一定的计算能力,只要是英伟达的GPU都是可以支持TensorRT Inference Server的。...
阅读全文 〉
TRTIS内使用pipeline串联多个模型中间的前后处理是否需要用CUDA实现?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 取决于你自己是想把它放在CPU还是GPU上来做。...
阅读全文 〉
TRTIS内使用XLA加速效果如何?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: XLA是TensorFlow本身的事情,它跟TensorRT Inference Server是没有直接关系的。...
阅读全文 〉
TensorRT 针对嵌入式平台做推理加速的优势?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 这个TensorRT也同样适用英伟达的Jetson的平台,嵌入式的平台比如像NANO,TX1和TX2等也是完全可以用TensorRT的。...
阅读全文 〉
老师请问一下ONNX模型里面带有prelu层,目前有什么方法把它转换成TRT模型吗
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 我觉得您可以实现一个Plugin,然后去把它转成TensorRT。...
阅读全文 〉
请问有使用python API调用BERT进行推理的tutorial代码吗?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 据我所知在我们开源TensorRT GitHub上是有这样的BERT的demo的。...
阅读全文 〉
TensorRT Inference Server的优势是什么,比起caffe或者caffe2的框架上跑推理的优势是什么?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server也是依赖框架的后端来做推理的,执行推理的性能和框架的本身来做推理的性能是一样的,但是用TensorRT Infer...
阅读全文 〉
rtis能被用在singularity环境里面吗?这样的环境不能支持Docker的
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server有cmake的build的方式,可以支持不同平台,支持不同Linux的系统,不需要依赖Docker,那么如果您的环...
阅读全文 〉
英伟达后续会限制AI推理只能在特斯拉系列中进行吗
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 据我所知是没有的。
阅读全文 〉
如何搭建这样一个server?需要多少钱搭建一个基本性能的server
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server是一个开源的软件,不需要任何钱就可以去搭建一个server系统,当然硬件资源除外。...
阅读全文 〉
trtis中怎么测试我的模型最大性能?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server通过Prometheus metrics和Status API接口把性能数据都开放出来了,另外可以用perf_cl...
阅读全文 〉
多卡的GPU server上起一个TRTIS还是多个呢?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server是可以看到服务器上的所有GPU的,可以通过CUDA VISIBLE DEVICES这个环境变量来指定GPU,那么I...
阅读全文 〉
使用TensorRT Inference Server,模型能跑在多个GPU上吗?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 单个的模型并不能切分的同时去跑在多个GPU上,TensorRT Inference Server是知道底层的硬件资源的,它会从模型仓库中加载模型,然后做负载均衡、执...
阅读全文 〉
如果某个模型的请求执行完毕了,GPU显存会释放掉吗?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server可以从模型仓库里面去load模型,在runtime的时候。如果释放GPU的显存,需要卸载模型,可以通过修改模型仓库...
阅读全文 〉
使用TRT对TensorFlow模型进行加速,是否有C++版本的实例分析
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 使用TensorRT对TensorFlow模型进行加速,我们是可以用uff parser的方式来做的,关于uff parser,您可以参考我们开源的TensorRT...
阅读全文 〉
怎么去优化引擎,可以把网络变的更快
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: 我们建议使用TensorRT 去优化网络模型,经过优化后执行速度会更快,关于如何使用TensorRT,可以参考我们之前的智东西的TensorRT公开课。...
阅读全文 〉
需要的环境,适合什么样的场景? 对于GPU有什么样的要求,并发和实时的问题,还是只是用GPU建模?
2020-05-29 13:26:12
NVIDIA高级系统架构师胡麟: TensorRT Inference Server在标准的Linux环境都可以使用,GPU最好需要有一定的CUDA的计算能力,比如像数据中心如P4,V100,P40...
阅读全文 〉