绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
面向LLM高效训练的集合通信库VCCL
超节点与智算集群系列 2025/11/13 19:00:00
课程讲师
贾彦民 基流科技 首席架构师

负责大模型训练框架、集合通信库、RDMA、AI 集群性能优化等研发工作。本科和研究生就读于重庆大学,2007 年,获中国科学院软件研究所计算机与理论博士学位。先后就职于中科院软件研究所、IBM、北京品科、基流科技等。在网络交换机、算力集群网络、集合通信和 LLM 训练推理框架等方向有比较丰富的研发经验。

贾彦民
基流科技 首席架构师

负责大模型训练框架、集合通信库、RDMA、AI 集群性能优化等研发工作。本科和研究生就读于重庆大学,2007 年,获中国科学院软件研究所计算机与理论博士学位。先后就职于中科院软件研究所、IBM、北京品科、基流科技等。在网络交换机、算力集群网络、集合通信和 LLM 训练推理框架等方向有比较丰富的研发经验。

课程提纲
  • LLM高效训练中的通信问题
  • 集合通信的基本操作和算法
  • VCCL的特色工作
  • 下一步开发计划
课程简介

随着大模型参数规模突破千亿乃至万亿级别,分布式训练已成为加速模型迭代的核心手段。然而,在分布式训练过程中,通信效率往往成为制约整体性能的关键瓶颈。如何实现高效、稳定、可观测的通信交互,直接关系到LLM训练的吞吐量和资源利用率,也是智算集群优化中亟待解决的核心问题。

在大模型训练中,多节点间的梯度同步、参数更新等操作都需要频繁的数据交换,传统通信方式极易因网络延迟、带宽争用或节点故障等导致计算资源闲置,甚至训练中断。此外,随着集群规模扩大,通信开销也呈指数级增长,进一步加剧了训练效率的下降。

集合通信库作为分布式训练的基础组件,通过标准化通信原语和优化算法,能够有效减少通信延迟,提升并行效率。但传统集合通信库在性能、稳定性和可观测性方面仍存在不足,难以满足LLM训练对极致效率和可靠性的需求。

在此背景下,基流科技基于NCCL的开源代码,面向高效率LLM训练和推理的应用需求,研发并开源了集合通信库VCCL,在性能、稳定性与可见性三大核心方面实现了技术创新。

11月13日19点,智猩猩公开课超节点与智算集群系列第16期将开讲,邀请到基流科技首席架构师贾彦民博士主讲,主题为《面向LLM高效训练的集合通信库VCCL》。

贾彦民博士首先会分享LLM高效训练中面临的通信问题,以及集合通信的基本操作和算法。之后,贾彦民博士将从SM-free P2P 通信、集合通信的容错、微秒级的 Flow Telemetry对VCCL在性能、稳定性和可见性方面的特色工作。最后,还将进一步阐述VCCL下一步开发计划,包括SM-free、One-Side、dymmetric Memory等。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...