绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
大型语言模型训练加速专场在线研讨会
2023/09/21 14:00:00
主讲人
董露露 宁畅 解决方案资深架构师

在人工智能领域拥有丰富的人工智能项目开发与管理经验。

董露露
宁畅 解决方案资深架构师

在人工智能领域拥有丰富的人工智能项目开发与管理经验。

许从良 NVIDIA 解决方案架构师

有丰富的 GPU 集群架构和 NEMO 使用经验。

许从良
NVIDIA 解决方案架构师

有丰富的 GPU 集群架构和 NEMO 使用经验。

杨飞 腾讯云 文件存储产品专家

多年存储产品相关经验,作为腾讯云文件存储 CFS 产品负责人,对高性能文件存储有深入的研究和丰富的产品化经验;聚焦于AI、自动驾驶、大数据存算分离场景等高性能场景,有丰富的业务实战经验。

杨飞
腾讯云 文件存储产品专家

多年存储产品相关经验,作为腾讯云文件存储 CFS 产品负责人,对高性能文件存储有深入的研究和丰富的产品化经验;聚焦于AI、自动驾驶、大数据存算分离场景等高性能场景,有丰富的业务实战经验。

完整议程
  • 【14:00-14:25】AI 服务器:大语言模型发展创新的算力底座
  • 【14:25-14:50】利用 NVIDIA NEMO Framework 训练大模型
  • 【14:50-15:15】云上高性能存储架构如何加速大模型训练
  • 【15:15-15:30】Q&A环节
研讨会简介

在 ChatGPT 和 GPT-4 的轮番引爆下,大型语言模型的时代已经全面开启。

随着从科技巨头,到创业新秀纷纷涌入这一领域,大型语言模型在国内呈现出百花齐放的局面。然而参数规模地不断增大,为大模型训练带来了计算、存储、通信等多方面的挑战。

在上述背景下,9月21日下午两点,「大型语言模型训练加速专场」在线研讨会上线开讲,这也是智东西公开课联合宁畅策划推出的第 1 期在线研讨会。

从9月起,我们将计划推出 10 期在线研讨会,将分别邀请 NVIDIA 嘉宾和一位行业嘉宾,围绕大型语言模型训练加速、自动驾驶、互联网视频分析、科学计算、智算中心等进行专场讲解。

这一期将由宁畅解决方案资深架构师董露露、NVIDIA 解决方案架构师许从良和腾讯云文件存储产品专家杨飞参与主讲,他们将分别围绕主题《AI 服务器:大语言模型发展创新的算力底座》、《利用 NVIDIA NEMO Framework 训练大模型》、《云上高性能存储架构如何加速大模型训练》进行直播讲解。

宁畅解决方案资深架构师董露露:《AI 服务器:大语言模型发展创新的算力底座》

随着 ChatGPT 的火爆,大语言模型(Large Language Model,LLM)也迎来一个井喷式的发展高潮,成为 AI 圈最热门的话题,甚至带动了 GPU 市场的爆发式增长。

本次分享将从 LLM 的发展历程展开,分析显著区别于常规深度学习模型的特点和适用场景,同时介绍国内外当前发展现状和应用情况对未来发展趋势做些研判。最后,也将结合最新的软硬件技术,探讨如何快速落地以形成有效生产力。

NVIDIA 解决方案架构师许从良:《利用 NVIDIA NEMO Framework 训练大模型》

NVIDIA NeMo 是一个端到端的云原生企业框架,供开发人员构建、定制和部署具有数十亿甚至上万亿参数的生成人工智能模型。

NeMo Framework 是一个端到端的框架,包含了数据处理、训练,以及优化部署。在训练上,Nemo Framework 使用 3D 并行技术给大模型的训练提供了加速。另外,Nemo 还提供了多种定制技术,以及自动化配置工具使得用户可以快速找到最优训练配置。

腾讯云文件存储产品专家杨飞:《云上高性能存储架构如何加速大模型训练》

大模型训练中,大量计算节点会同时读取一批数据集,需要尽可能缩短数据加载时长,避免计算节点产生等待。

腾讯云通过自研的 CFS Turbo 高性能文件存储方案,提供100GB/s带宽、1000万 IOPS 的极致性能,并通过持久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求,充分满足大模型场景下高性能、大吞吐和海量存储要求。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...