面向LLM高效训练的集合通信库VCCL

超节点与智算集群系列 2025/11/13 19:00:00

课程讲师

贾彦民基流科技首席架构师

负责大模型训练框架、集合通信库、RDMA、AI 集群性能优化等研发工作。本科和研究生就读于重庆大学，2007 年，获中国科学院软件研究所计算机与理论博士学位。先后就职于中科院软件研究所、IBM、北京品科、基流科技等。在网络交换机、算力集群网络、集合通信和 LLM 训练推理框架等方向有比较丰富的研发经验。

贾彦民

基流科技首席架构师

课程提纲

LLM高效训练中的通信问题
集合通信的基本操作和算法
VCCL的特色工作
下一步开发计划

课程简介

随着大模型参数规模突破千亿乃至万亿级别，分布式训练已成为加速模型迭代的核心手段。然而，在分布式训练过程中，通信效率往往成为制约整体性能的关键瓶颈。如何实现高效、稳定、可观测的通信交互，直接关系到LLM训练的吞吐量和资源利用率，也是智算集群优化中亟待解决的核心问题。

在大模型训练中，多节点间的梯度同步、参数更新等操作都需要频繁的数据交换，传统通信方式极易因网络延迟、带宽争用或节点故障等导致计算资源闲置，甚至训练中断。此外，随着集群规模扩大，通信开销也呈指数级增长，进一步加剧了训练效率的下降。

集合通信库作为分布式训练的基础组件，通过标准化通信原语和优化算法，能够有效减少通信延迟，提升并行效率。但传统集合通信库在性能、稳定性和可观测性方面仍存在不足，难以满足LLM训练对极致效率和可靠性的需求。

在此背景下，基流科技基于NCCL的开源代码，面向高效率LLM训练和推理的应用需求，研发并开源了集合通信库VCCL，在性能、稳定性与可见性三大核心方面实现了技术创新。

11月13日19点，智猩猩公开课超节点与智算集群系列第16期将开讲，邀请到基流科技首席架构师贾彦民博士主讲，主题为《面向LLM高效训练的集合通信库VCCL》。

贾彦民博士首先会分享LLM高效训练中面临的通信问题，以及集合通信的基本操作和算法。之后，贾彦民博士将从SM-free P2P 通信、集合通信的容错、微秒级的 Flow Telemetry对VCCL在性能、稳定性和可见性方面的特色工作。最后，还将进一步阐述VCCL下一步开发计划，包括SM-free、One-Side、dymmetric Memory等。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...