- 开课提醒
万卡集群智算网络建设与优化
超节点与智算集群系列 2025/09/02 19:00:00
课程讲师
课程提纲
- 智算网络建设的背景
- 智算网络主流技术路线分析
- 万卡集群智算网络解决方案AI-Fabric
- 智算网络优化思路
课程简介
随着大模型参数规模突破万亿级别,AI训练与推理对算力的需求呈指数级增长,万卡级智算集群正在成为超大规模AI基础设施的核心形态。
网络作为集群的“神经系统”,其带宽、延迟、稳定性和可扩展性,直接决定了万卡集群的计算性能和效率。通信瓶颈、带宽争用、拓扑拥塞等问题,都有可能导致昂贵的GPU资源大量闲置,进而严重影响大模型训练任务的完成时间和资源利用率。因此,如何构建高带宽、低延迟、可扩展且易于运维的智算网络,是业界亟需攻克的关键课题。
为了提升GPU训练效率,保障集群的低时延无损通信,锐捷网络推出万卡级智算网络解决方案——AI-Fabric。AI-Fabric采用多轨组网架构,让同号网卡连接到同一网络Pod组内,使训练业务的流量限定在同一Pod组或同一Tor设备上,从而减少转发跳数,大幅降低网络转发时延;同时为了构建高算力的大规模GPU集群,锐捷网络AI-Fabric网络解决方案采用三级组网,各层级按照1: 1的收敛比的设计,最大可以提供32768个400G端口,实现32K个GPU的集群承载。
9月2日19点,智猩猩公开课超节点与智算集群系列第11期将开讲,邀请到锐捷网络AIGC系统部解决方案经理余熙主讲,主题为《万卡集群智算网络建设与优化》。
本次公开课,余熙老师将首先介绍智算网络的建设背景与发展趋势,并深入分析当前主流技术路线的优劣与适用场景。之后,余熙老师会重点讲解锐捷网络万卡集群智算网络解决方案AI-Fabric的关键技术、架构实现,以及性能优化思路。
精彩问答
提问
提问
