负责大模型训练框架、集合通信库、RDMA、AI 集群性能优化等研发工作。本科和研究生就读于重庆大学,2007 年,获中国科学院软件研究所计算机与理论博士学位。先后就职于中科院软件研究所、IBM、北京品科、基流科技等。在网络交换机、算力集群网络、集合通信和 LLM 训练推理框架等方向有比较丰富的研发经验。
- LLM高效训练中的通信问题
- 集合通信的基本操作和算法
- VCCL的特色工作
- 下一步开发计划
随着大模型参数规模突破千亿乃至万亿级别,分布式训练已成为加速模型迭代的核心手段。然而,在分布式训练过程中,通信效率往往成为制约整体性能的关键瓶颈。如何实现高效、稳定、可观测的通信交互,直接关系到LLM训练的吞吐量和资源利用率,也是智算集群优化中亟待解决的核心问题。
在大模型训练中,多节点间的梯度同步、参数更新等操作都需要频繁的数据交换,传统通信方式极易因网络延迟、带宽争用或节点故障等导致计算资源闲置,甚至训练中断。此外,随着集群规模扩大,通信开销也呈指数级增长,进一步加剧了训练效率的下降。
集合通信库作为分布式训练的基础组件,通过标准化通信原语和优化算法,能够有效减少通信延迟,提升并行效率。但传统集合通信库在性能、稳定性和可观测性方面仍存在不足,难以满足LLM训练对极致效率和可靠性的需求。
在此背景下,基流科技基于NCCL的开源代码,面向高效率LLM训练和推理的应用需求,研发并开源了集合通信库VCCL,在性能、稳定性与可见性三大核心方面实现了技术创新。
11月13日19点,智猩猩公开课超节点与智算集群系列第16期将开讲,邀请到基流科技首席架构师贾彦民博士主讲,主题为《面向LLM高效训练的集合通信库VCCL》。
贾彦民博士首先会分享LLM高效训练中面临的通信问题,以及集合通信的基本操作和算法。之后,贾彦民博士将从SM-free P2P 通信、集合通信的容错、微秒级的 Flow Telemetry对VCCL在性能、稳定性和可见性方面的特色工作。最后,还将进一步阐述VCCL下一步开发计划,包括SM-free、One-Side、dymmetric Memory等。