绑定手机号
确认绑定
模型参数规模的不断提升,导致在单个芯片上完成大模型的训练和推理变得不太现实,需要将多个芯片或多台服务器互连起来组成智算集群,才能完成大模型的训练和推理工作。智算集群规模也正在从千卡、万卡向10万卡演进。
而智算集群中芯片与芯片、机柜与机柜之间的互连,并不是简单的“手拉手”,因为面对百亿、千亿乃至万亿级别的大模型,智算集群要处理海量的数据,因此需要超高带宽、超低延迟的网络互连技术,来确保集群内数据的高效传输。
同时,集群规模越大,网络结构也会越复杂,如何根据不同的计算任务和数据传输需求,动态地调整网络带宽和路由策略,优化数据传输路径,确保数据在最短的时间内到达目的地,也是智算集群网络架构设计时需要考虑的关键因素。高性能网络互连技术已成为打造智算集群的关键所在。
11月8日19:30,「智猩猩智算集群公开课」第3期将开讲,由云脉芯联产品总监孙伟主讲,主题为《智算集群网络互连技术创新应用与展望》。
此次公开课,孙伟老师首先会分享智算集群业务对网络互连技术的需求和挑战,并介绍业内常见的智算集群网络优化方案。之后,孙伟老师将着重讲解云脉芯联在智算集群网络互连技术领域的创新和应用,以及网络互连技术的未来发展趋势。