基于NVIDIA Triton的AI模型高效部署实践

课程回放

2022/06/28 19:00:00

课程讲师

张萌 NVIDIA 解决方案架构师

负责英伟达医疗健康行业GPU计算解决方案设计与研究，包括深度学习训练和推理，GPU分布式并行计算加速等。

张萌

NVIDIA 解决方案架构师

负责英伟达医疗健康行业GPU计算解决方案设计与研究，包括深度学习训练和推理，GPU分布式并行计算加速等。

申意 NVIDIA 解决方案架构师

负责为消费互联网行业提供 GPU 计算解决方案，包括编解码，数据前后处理，模型推理及服务化等。

申意

NVIDIA 解决方案架构师

负责为消费互联网行业提供 GPU 计算解决方案，包括编解码，数据前后处理，模型推理及服务化等。

课程提纲

AI模型部署现状及挑战
NVIDIA Triton的重要功能
基于Ampere架构多实例GPU特性和K8s实现Triton大规模部署
实例演示：使用Triton部署端到端的CV模型
应用案例

课程简介

去年7月，智东西公开课曾策划推出 NVIDIA Triton 推理引擎专场，NVIDIA 高级深度学习软件架构师何成杰和蚂蚁集团高级技术专家饶星，两位技术专家围绕主题《面向多框架的AI模型部署服务 Triton 及其在蚂蚁预测引擎中的应用实践》，对 Triton 推理引擎的多框架兼容特性，以及 Triton 在蚂蚁预测引擎中的创新应用进行了深度讲解。（想要观看回放的朋友，可以点击文章底部“阅读原文”进行回看）

6月28日，NVIDIA Triton 推理引擎公开课再上新。本次公开课由 NVIDIA 解决方案架构师张萌和申意分别主讲和直播答疑，主题为《基于 NVIDIA Triton 的AI模型高效部署实践》。

NVIDIA Triton 推理服务器（以前称为 TensorRT 推理服务器）是一款开源软件，可简化深度学习模型在生产环境中的部署。借助 Triton 推理服务器，Devops 和 MLops 团队可以将各类框架（TensorFlowPyTorch、TensorRT、ONNX Runtime、MXNet、XGBoost 等或自定义框架后端）训练的 AI 模型，在基于 GPU 或 CPU的本地、数据中心、云、边缘云等平台，快速可靠地部署在诸如 Kubernetes、KFServing、Prometheus、Grafana 等大规模生产环境中，并轻松扩展。

借助 NVIDIA Ampere 架构 Tensor Core 和多实例并行运行多个工作负载（ MIG ），Triton 推理服务器可以最大化 A100 GPU 和 A30 GPU 的利用率。它不仅可在单个 NVIDIA GPU 上同时运行多个模型，以更大限度地提高利用率，与 Kubernetes 集成以用于编排、指标和自动扩展，还可以让多个用户共享一个 GPU ，通过将单个 GPU 划分为多个 GPU 实例，让每个实例都有专用的内存和计算资源，在确保执行工作负载的同时，保证服务质量和故障隔离。

在本次公开课，张萌将参与主讲环节。她会结合AI模型部署的挑战和 NVIDIA Triton 的重要功能，分享应用 Triton 的收益，之后会重点讲解基于 Ampere 架构多实例 GPU 特性和 K8s 实现 Triton 大规模部署。最后，张萌会就如何使用 Triton 部署端到端的 CV 模型进行实例演示，并介绍 Triton 在行业内的一些应用案例。另一位主讲人申意则将主要参与问答环节。

「 NVIDIA Triton 推理引擎公开课」将在智东西公开课知识店铺上以视频直播的形式进行。同时，针对本次公开课，也组建了专属交流群，届时张萌和申意将加入，欢迎感兴趣的朋友申请。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...