绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
OISA构建开放高性能GPU卡间互联体系
智猩猩智算集群公开课 2024/12/04 19:30:00
课程讲师
李锴 中国移动研究院 网络与IT技术研究所技术经理

主要职责集中在构建通用和智能算力技术体系、NFV网络基础设施以及先进计算等关键领域。致力于解决数据中心内部处理器、加速器、存储器等核心组件之间的效率提升问题,特别强调通过采用开放的互联技术来提高智算中心GPU卡间的数据传输效率和性能。以推动新型智算中心的创新,实现更高效、更灵活的数据处理。

李锴
中国移动研究院 网络与IT技术研究所技术经理

主要职责集中在构建通用和智能算力技术体系、NFV网络基础设施以及先进计算等关键领域。致力于解决数据中心内部处理器、加速器、存储器等核心组件之间的效率提升问题,特别强调通过采用开放的互联技术来提高智算中心GPU卡间的数据传输效率和性能。以推动新型智算中心的创新,实现更高效、更灵活的数据处理。

课程提纲
  • GPU卡间互联体系发展现状
  • 为什么要重塑GPU卡间互联体系
  • 如何通过OISA实现高效互联能力
  • 当前OISA进展及下一步计划
课程简介

大模型的爆发,对智能算力的需求指数级提升,集群规模迈入万卡、十万卡级别。大模型的训练严重依赖集群内GPU之间频繁的数据交互,带来的庞大的通信开销导致集群的有效算力无法随GPU数量增加而线性增长,这也意味着互联性能将是决定集群规模扩展和性能提升的关键所在。

智算集群互联体系的构建需要GPU芯片、交换机、网卡、网络协议等软硬件的紧密结合,技术体系复杂,难度极高。

为了应对GPU卡间互联的带宽和时延要求,中国移动联合产业合作伙伴共同发布OISA协议,旨在打造一个高效、智能、灵活开放的GPU卡间互联体系。OISA采用全向连接设计,能够确保大规模GPU之间的对等通信;同时,引入智能感知设计,通过定义流量感知标签,并结合流控和重传机制,优化数据传输效率。在协议层面,OISA采用统一报文格式、多语义融合、多层次流控和重传以及集合通信加速等四大关键技术,能够实现高速、低时延、无损和高可靠的GPU通信。

12月4日19:30,智猩猩智算集群公开课第5期将开讲,由中国移动研究院网络与IT技术研究所技术经理李锴主讲,主题为《OISA构建开放高性能GPU卡间互联体系》。

本次公开课,李铠老师首先会介绍智算及GPU卡间互联的发展背景,并进一步分析为什么要重塑GPU卡间互联体系。之后,李铠老师将着重讲解如何利用OISA协议实现高效的GPU卡间互联,并分享当前OISA的最新进展及下一步计划。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...