大型语言模型训练加速专场在线研讨会

课程回放

大型语言模型训练加速专场在线研讨会

2023/09/21 14:00:00

主讲人

董露露宁畅解决方案资深架构师

在人工智能领域拥有丰富的人工智能项目开发与管理经验。

董露露

宁畅解决方案资深架构师

在人工智能领域拥有丰富的人工智能项目开发与管理经验。

许从良 NVIDIA 解决方案架构师

有丰富的 GPU 集群架构和 NEMO 使用经验。

许从良

NVIDIA 解决方案架构师

有丰富的 GPU 集群架构和 NEMO 使用经验。

杨飞腾讯云文件存储产品专家

多年存储产品相关经验，作为腾讯云文件存储 CFS 产品负责人，对高性能文件存储有深入的研究和丰富的产品化经验；聚焦于AI、自动驾驶、大数据存算分离场景等高性能场景，有丰富的业务实战经验。

杨飞

腾讯云文件存储产品专家

完整议程

【14:00-14:25】AI 服务器：大语言模型发展创新的算力底座
【14:25-14:50】利用 NVIDIA NEMO Framework 训练大模型
【14:50-15:15】云上高性能存储架构如何加速大模型训练
【15:15-15:30】Q&A环节

研讨会简介

在 ChatGPT 和 GPT-4 的轮番引爆下，大型语言模型的时代已经全面开启。

随着从科技巨头，到创业新秀纷纷涌入这一领域，大型语言模型在国内呈现出百花齐放的局面。然而参数规模地不断增大，为大模型训练带来了计算、存储、通信等多方面的挑战。

在上述背景下，9月21日下午两点，「大型语言模型训练加速专场」在线研讨会上线开讲，这也是智东西公开课联合宁畅策划推出的第 1 期在线研讨会。

从9月起，我们将计划推出 10 期在线研讨会，将分别邀请 NVIDIA 嘉宾和一位行业嘉宾，围绕大型语言模型训练加速、自动驾驶、互联网视频分析、科学计算、智算中心等进行专场讲解。

这一期将由宁畅解决方案资深架构师董露露、NVIDIA 解决方案架构师许从良和腾讯云文件存储产品专家杨飞参与主讲，他们将分别围绕主题《AI 服务器：大语言模型发展创新的算力底座》、《利用 NVIDIA NEMO Framework 训练大模型》、《云上高性能存储架构如何加速大模型训练》进行直播讲解。

宁畅解决方案资深架构师董露露：《AI 服务器：大语言模型发展创新的算力底座》

随着 ChatGPT 的火爆，大语言模型（Large Language Model，LLM）也迎来一个井喷式的发展高潮，成为 AI 圈最热门的话题，甚至带动了 GPU 市场的爆发式增长。

本次分享将从 LLM 的发展历程展开，分析显著区别于常规深度学习模型的特点和适用场景，同时介绍国内外当前发展现状和应用情况对未来发展趋势做些研判。最后，也将结合最新的软硬件技术，探讨如何快速落地以形成有效生产力。

NVIDIA 解决方案架构师许从良：《利用 NVIDIA NEMO Framework 训练大模型》

NVIDIA NeMo 是一个端到端的云原生企业框架，供开发人员构建、定制和部署具有数十亿甚至上万亿参数的生成人工智能模型。

NeMo Framework 是一个端到端的框架，包含了数据处理、训练，以及优化部署。在训练上，Nemo Framework 使用 3D 并行技术给大模型的训练提供了加速。另外，Nemo 还提供了多种定制技术，以及自动化配置工具使得用户可以快速找到最优训练配置。

腾讯云文件存储产品专家杨飞：《云上高性能存储架构如何加速大模型训练》

大模型训练中，大量计算节点会同时读取一批数据集，需要尽可能缩短数据加载时长，避免计算节点产生等待。

腾讯云通过自研的 CFS Turbo 高性能文件存储方案，提供100GB/s带宽、1000万 IOPS 的极致性能，并通过持久化客户端缓存技术，将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间，实现微秒级延时，解決大模型场景大数据量、高带宽、低延时的诉求，充分满足大模型场景下高性能、大吞吐和海量存储要求。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...