绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
万卡集群智算网络建设与优化
超节点与智算集群系列 2025/09/02 19:00:00
课程讲师
余熙 锐捷网络 AIGC系统部解决方案经理

从事信息化、智算行业多年。服务于众多行业的大型智算项目建设。深入参与了从需求分析、架构设计到实施落地的全过程管理,对AI算力基础设施建设、优化有丰富经验,为行业智算能力提供有力支持。

余熙
锐捷网络 AIGC系统部解决方案经理

从事信息化、智算行业多年。服务于众多行业的大型智算项目建设。深入参与了从需求分析、架构设计到实施落地的全过程管理,对AI算力基础设施建设、优化有丰富经验,为行业智算能力提供有力支持。

课程提纲
  • 智算网络建设的背景
  • 智算网络主流技术路线分析
  • 万卡集群智算网络解决方案AI-Fabric
  • 智算网络优化思路
课程简介

随着大模型参数规模突破万亿级别,AI训练与推理对算力的需求呈指数级增长,万卡级智算集群正在成为超大规模AI基础设施的核心形态。

网络作为集群的“神经系统”,其带宽、延迟、稳定性和可扩展性,直接决定了万卡集群的计算性能和效率。通信瓶颈、带宽争用、拓扑拥塞等问题,都有可能导致昂贵的GPU资源大量闲置,进而严重影响大模型训练任务的完成时间和资源利用率。因此,如何构建高带宽、低延迟、可扩展且易于运维的智算网络,是业界亟需攻克的关键课题。

为了提升GPU训练效率,保障集群的低时延无损通信,锐捷网络推出万卡级智算网络解决方案——AI-Fabric。AI-Fabric采用多轨组网架构,让同号网卡连接到同一网络Pod组内,使训练业务的流量限定在同一Pod组或同一Tor设备上,从而减少转发跳数,大幅降低网络转发时延;同时为了构建高算力的大规模GPU集群,锐捷网络AI-Fabric网络解决方案采用三级组网,各层级按照1: 1的收敛比的设计,最大可以提供32768个400G端口,实现32K个GPU的集群承载。

9月2日19点,智猩猩公开课超节点与智算集群系列第11期将开讲,邀请到锐捷网络AIGC系统部解决方案经理余熙主讲,主题为《万卡集群智算网络建设与优化》。

本次公开课,余熙老师将首先介绍智算网络的建设背景与发展趋势,并深入分析当前主流技术路线的优劣与适用场景。之后,余熙老师会重点讲解锐捷网络万卡集群智算网络解决方案AI-Fabric的关键技术、架构实现,以及性能优化思路。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...