企业级大模型工程实践在线研讨会

课程回放

企业级大模型工程实践在线研讨会

2024/05/16 19:00:00

主讲人

刘彬（花名：慧原）阿里巴巴 AI基础架构工程师

长期在阿里安全从事 AI 基础架构相关工作，专注于解决 AI 相关算法落地遇到的各种问题，致力于为算法同学提供一个快速、便捷和稳定的 AI 系统，目前主要负责阿里安全的 AI 模型训练平台，AI 服务编排和推理平台相关工作，在 GPU 编程、AI 服务工程这块有丰富的实战经验，同时在大模型应用相关也积累了不少的工程经验。

刘彬（花名：慧原）

阿里巴巴 AI基础架构工程师

吴金钟 NVIDIA 软件解决方案架构师

负责 NVIDIA AI 人工智能和数字孪生解决方案的客户支持和生态构建，专注于基于 CUDA 的 AI 推理加速和 Omniverse 数字孪生平台。

吴金钟

NVIDIA 软件解决方案架构师

负责 NVIDIA AI 人工智能和数字孪生解决方案的客户支持和生态构建，专注于基于 CUDA 的 AI 推理加速和 Omniverse 数字孪生平台。

完整议程

阿里安全大模型工程实践
NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地
问答环节

研讨会简介

5月16日19点，智猩猩将举办「企业级大模型工程实践在线研讨会」。阿里巴巴 AI 基础架构工程师刘彬（花名：慧原）、NVIDIA 软件解决方案架构师吴金钟两位技术专家将分别做专题分享，并线上答疑。

刘彬将以《阿里安全大模型工程实践》为主题，深入探讨在阿里安全在大模型应用、特别是 Transformer 模型的工程实践和优化策略。演讲将从模型的结构分析、训练、部署、推理优化、量化技术到未来规划，向 AI 领域的工程师、研究人员和开发者，提供阿里安全团队在大模型技术应用的阶段性实践成果分享。在具体实践中，阿里安全采用 NVIDIA NeMo 框架和 TensorRT-LLM 显著优化了模型训练与推理性能。其中 NeMo 在多卡环境可实现 2-3 倍的训练加速，TensorRT-LLM 结合 SmoothQuant Int8 可实现领先的推理加速比，动态批处理策略 (Dynamic Batch) 将计算步骤减少 30%，实际 QPS 增益 2-3 倍。Prompt 优化策略在特定业务中提升吞吐高达 10 倍。整体优化成果显著增强了模型性能与业务效率。

进入 2024 年，企业正将注意力转向大规模生产部署，其中包括将 AI 模型连接到现有企业基础设施、优化系统延迟和吞吐量、日志记录、监控和安全性等。这种生产路径既复杂又耗时，需要专业技能、平台和流程，尤其是在大规模部署的时候。

NVIDIA NIM (NVIDIA Inference Microservice) 可以帮助企业解决上述问题。NIM 是一个容器化的推理微服务，包含行业标准 API、特定领域的代码、优化的推理引擎和企业运行时，是 NVIDIA AI Enterprise 的一部分。它是一种全新的软件打包和交付方式，能够快速部署各种定制 AI，并简化生成式 AI 模型在数亿 GPU 环境上的部署，包括云、数据中心和 GPU 加速的工作站。

吴金钟将以《NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地》为主题，介绍 NVIDIA 如何通过 NIM 推理微服务赋能企业快速实现生成式 AI 技术的实际应用落地，共分为三个核心部分：NIM 概述、NIM 加速生成式 AI 全流程构建、通过 NIM demo 展示其可无缝接入现有 AI 开发管道、快速构建行业 AI 应用、快速构建多智能体 AI 应用的能力和巨大潜力。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...