开源推理框架TNN模型部署加速与优化

课程回放

开源推理框架TNN模型部署加速与优化

2021/09/15 19:00:00

课程讲师

丹迪腾讯优图高级研究员

高性能计算硕士，TNN项目成员。负责过NVIDIA GPU、 X86 等多个平台的推理框架加速工作，在底层Kernel优化，量化模型落地等方面有丰富经验；近期主要负责TNN前沿技术(包括编译优化、原生框架支持等)的探索和应用。

丹迪

腾讯优图高级研究员

课程提纲

推理框架的现状及高性能加速
TNN框架中的自动调优方法
针对PyTorch的模型部署加速方案TNN-Torch
基于TNN的部署案例解析

课程简介

今年7月，智东西公开课教研团队全新策划「大厂讲坛」，将邀请国内科技/互联网大厂开设专区，围绕最新研究成果、核心技术、业务创新，持续带来多场直播讲解。腾讯优图实验室专区则是此次「大厂讲坛」的第一个系列性讲解，目前已经确定下来六讲，将围绕优图实验室在弱监督目标定位、图文多模态、TNN、高效模型、3D人脸、人脸隐私训练及开源项目Tface这六个领域的重要研究成果进行讲解和交流。

在腾讯优图实验室专区的前两讲中，优图实验室研究员兴甲和志文两位讲师，分别围绕主题《弱监督目标定位的研究及应用》和《多模态图文内容的识别与定位》，为我们讲解了优图实验室在弱监督目标定位、图文多模态领域的最新研究成果及应用。错过直播的朋友可以点击文章底部“阅读原文”进行回看。

9月15日晚7点，腾讯优图实验室专区第3讲继续开讲，腾讯优图实验室高级研究员、TNN项目成员丹迪老师将以《开源推理框架TNN模型部署加速与优化》为主题，深度剖析TNN中的高性能加速方案。

深度学习在图像分类、目标检测分割、自然语言处理等等广泛场景中的有效性验证，致使模型计算量和OP类型都在急速增长，模型落地面临性能、内存等一系列问题。而针对这些问题，业界涌现出了NCNN、TNN、MNN等一系列的开源推理框架，尝试给出各自的解决方案。

在推理加速框架中，高性能计算相关技术发挥着至关重要的作用。高性能计算在推理框架的应用主要是通过在软件层面上的优化，发挥出底层硬件的性能。近年来，底层制造工艺难以按照摩尔定律取得进展，硬件性能提升更多的是通过多核、SIMD，VILW等技术获得，因此业界也出现了许多专注AI计算的领域专用架构(DSA)。

上层应用想要发挥硬件性能，越来越需要软件的优化。当前的推理框架中，通常使用的是手工汇编优化的方式。此方式需要针对每个硬件平台、每个OP进行单独优化，工作量较大，并且当模型中存在不支持OP时，推理框架必须要更新代码，实现对应OP才能运行。而腾讯所推出的TNN推理框架实现了多个层面的自动化方法，可以有效的优化研发效率。

在TNN中，其通过JIT（即时编译）技术，避免完全手写汇编，可通过一定的抽象实现不同平台的ABI通用以及tiling尺寸搜索；其次，TNN打通TVM Relay IR，并在TVM基础上进行了format和scheduler的优化，以进行自动调优；再次，TNN针对Pytorch模型提出了TNN-Torch加速方案，可在存在不支持算子的情况下进行子图加速。这些方法都大大提升了模型部署的工作效率。而在本次的课程中，丹迪老师将会围绕以上内容对TNN进行深入的讲解，敬请大家期待！

丹迪是腾讯优图实验室的高级研究员，高性能计算硕士毕业生，也是TNN项目成员，目前主要负责TNN前沿技术(包括编译优化、原生框架支持等)的探索和应用。他也负责过NVIDIA GPU、 X86 等多个平台的推理框架加速工作，在底层Kernel优化，量化模型落地等方面有丰富经验。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...