GRPC和HTTP提交请求，哪个更好？

提问

问题出自：使用TensorRT Inference Server加速深度学习模型的部署

GRPC和HTTP提交请求，哪个更好？

2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server本身是支持这两种提交请求的方法，没有说哪种方法更优越一些，这还是要看您的应用和具体的架构。

回答

相关问答

在什么硬件要求下才能建立这样的一个Server，必须V100,P4这类高档DGX吗？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 其实只要GPU有一定的计算能力，只要是英伟达的GPU都是可以支持TensorRT Inference Server的。... 阅读全文〉
TRTIS内使用pipeline串联多个模型中间的前后处理是否需要用CUDA实现？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 取决于你自己是想把它放在CPU还是GPU上来做。... 阅读全文〉
TRTIS内使用XLA加速效果如何？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: XLA是TensorFlow本身的事情，它跟TensorRT Inference Server是没有直接关系的。... 阅读全文〉
TensorRT 针对嵌入式平台做推理加速的优势？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 这个TensorRT也同样适用英伟达的Jetson的平台，嵌入式的平台比如像NANO，TX1和TX2等也是完全可以用TensorRT的。... 阅读全文〉
老师请问一下ONNX模型里面带有prelu层，目前有什么方法把它转换成TRT模型吗
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 我觉得您可以实现一个Plugin，然后去把它转成TensorRT。... 阅读全文〉
请问有使用python API调用BERT进行推理的tutorial代码吗？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 据我所知在我们开源TensorRT GitHub上是有这样的BERT的demo的。... 阅读全文〉
TensorRT Inference Server的优势是什么，比起caffe或者caffe2的框架上跑推理的优势是什么？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server也是依赖框架的后端来做推理的，执行推理的性能和框架的本身来做推理的性能是一样的，但是用TensorRT Infer... 阅读全文〉
rtis能被用在singularity环境里面吗？这样的环境不能支持Docker的
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server有cmake的build的方式，可以支持不同平台，支持不同Linux的系统，不需要依赖Docker，那么如果您的环... 阅读全文〉
英伟达后续会限制AI推理只能在特斯拉系列中进行吗
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 据我所知是没有的。阅读全文〉
如何搭建这样一个server？需要多少钱搭建一个基本性能的server
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server是一个开源的软件，不需要任何钱就可以去搭建一个server系统，当然硬件资源除外。... 阅读全文〉
trtis中怎么测试我的模型最大性能？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server通过Prometheus metrics和Status API接口把性能数据都开放出来了，另外可以用perf_cl... 阅读全文〉
多卡的GPU server上起一个TRTIS还是多个呢？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server是可以看到服务器上的所有GPU的，可以通过CUDA VISIBLE DEVICES这个环境变量来指定GPU，那么I... 阅读全文〉
使用TensorRT Inference Server，模型能跑在多个GPU上吗？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 单个的模型并不能切分的同时去跑在多个GPU上，TensorRT Inference Server是知道底层的硬件资源的，它会从模型仓库中加载模型，然后做负载均衡、执... 阅读全文〉
如果某个模型的请求执行完毕了，GPU显存会释放掉吗？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server可以从模型仓库里面去load模型，在runtime的时候。如果释放GPU的显存，需要卸载模型，可以通过修改模型仓库... 阅读全文〉
使用TRT对TensorFlow模型进行加速，是否有C++版本的实例分析
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 使用TensorRT对TensorFlow模型进行加速，我们是可以用uff parser的方式来做的，关于uff parser，您可以参考我们开源的TensorRT... 阅读全文〉
怎么去优化引擎,可以把网络变的更快
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: 我们建议使用TensorRT 去优化网络模型，经过优化后执行速度会更快，关于如何使用TensorRT，可以参考我们之前的智东西的TensorRT公开课。... 阅读全文〉
需要的环境，适合什么样的场景？对于GPU有什么样的要求，并发和实时的问题，还是只是用GPU建模？
2020-05-29 13:26:12

NVIDIA高级系统架构师胡麟: TensorRT Inference Server在标准的Linux环境都可以使用，GPU最好需要有一定的CUDA的计算能力，比如像数据中心如P4，V100，P40... 阅读全文〉