绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
企业级大模型工程实践在线研讨会
2024/05/16 19:00:00
主讲人
刘彬(花名:慧原) 阿里巴巴 AI基础架构工程师

长期在阿里安全从事 AI 基础架构相关工作,专注于解决 AI 相关算法落地遇到的各种问题,致力于为算法同学提供一个快速、便捷和稳定的 AI 系统,目前主要负责阿里安全的 AI 模型训练平台,AI 服务编排和推理平台相关工作,在 GPU 编程、AI 服务工程这块有丰富的实战经验,同时在大模型应用相关也积累了不少的工程经验。

刘彬(花名:慧原)
阿里巴巴 AI基础架构工程师

长期在阿里安全从事 AI 基础架构相关工作,专注于解决 AI 相关算法落地遇到的各种问题,致力于为算法同学提供一个快速、便捷和稳定的 AI 系统,目前主要负责阿里安全的 AI 模型训练平台,AI 服务编排和推理平台相关工作,在 GPU 编程、AI 服务工程这块有丰富的实战经验,同时在大模型应用相关也积累了不少的工程经验。

吴金钟 NVIDIA 软件解决方案架构师

负责 NVIDIA AI 人工智能和数字孪生解决方案的客户支持和生态构建,专注于基于 CUDA 的 AI 推理加速和 Omniverse 数字孪生平台。

吴金钟
NVIDIA 软件解决方案架构师

负责 NVIDIA AI 人工智能和数字孪生解决方案的客户支持和生态构建,专注于基于 CUDA 的 AI 推理加速和 Omniverse 数字孪生平台。

完整议程
  • 阿里安全大模型工程实践
  • NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地
  • 问答环节
研讨会简介

5月16日19点,智猩猩将举办「企业级大模型工程实践在线研讨会」。阿里巴巴 AI 基础架构工程师刘彬(花名:慧原)、NVIDIA 软件解决方案架构师吴金钟两位技术专家将分别做专题分享,并线上答疑。

刘彬将以《阿里安全大模型工程实践》为主题,深入探讨在阿里安全在大模型应用、特别是 Transformer 模型的工程实践和优化策略。演讲将从模型的结构分析、训练、部署、推理优化、量化技术到未来规划,向 AI 领域的工程师、研究人员和开发者,提供阿里安全团队在大模型技术应用的阶段性实践成果分享。在具体实践中,阿里安全采用 NVIDIA NeMo 框架和 TensorRT-LLM 显著优化了模型训练与推理性能。其中 NeMo 在多卡环境可实现 2-3 倍的训练加速,TensorRT-LLM 结合 SmoothQuant Int8 可实现领先的推理加速比,动态批处理策略 (Dynamic Batch) 将计算步骤减少 30%,实际 QPS 增益 2-3 倍。Prompt 优化策略在特定业务中提升吞吐高达 10 倍。整体优化成果显著增强了模型性能与业务效率。

进入 2024 年,企业正将注意力转向大规模生产部署,其中包括将 AI 模型连接到现有企业基础设施、优化系统延迟和吞吐量、日志记录、监控和安全性等。这种生产路径既复杂又耗时,需要专业技能、平台和流程,尤其是在大规模部署的时候。

NVIDIA NIM (NVIDIA Inference Microservice) 可以帮助企业解决上述问题。NIM 是一个容器化的推理微服务,包含行业标准 API、特定领域的代码、优化的推理引擎和企业运行时,是 NVIDIA AI Enterprise 的一部分。它是一种全新的软件打包和交付方式,能够快速部署各种定制 AI,并简化生成式 AI 模型在数亿 GPU 环境上的部署,包括云、数据中心和 GPU 加速的工作站。

吴金钟将以《NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地》为主题,介绍 NVIDIA 如何通过 NIM 推理微服务赋能企业快速实现生成式 AI 技术的实际应用落地,共分为三个核心部分:NIM 概述、NIM 加速生成式 AI 全流程构建、通过 NIM demo 展示其可无缝接入现有 AI 开发管道、快速构建行业 AI 应用、快速构建多智能体 AI 应用的能力和巨大潜力。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...