绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
百度智能云线上分享会
已更新1期
专场简介

百度智能云于3月9日对外宣布落地新一代高性能AI计算集群,可提供EFLOPS级算力支持,并发布新一代GPU服务器实例GPU-H5-8NA100-IB01。同时将在3月16日19点在B站企业号“百度智能云的朋友们”和“百度智能云”视频号,以及“智猩猩”视频号上进行同步直播。

领先AI原生云算力底座的技术实力全新揭秘

新一代高性能AI计算集群基于NVIDIA A100-80G NVLink GPU和InfiniBand HDR构建,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。

并且在新一代GPU服务器实例GPU-H5-8NA100-IB01中,采用了百度自研X-MAN架构的超级AI计算机为硬件平台。X-MAN自2016年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请了六项专利,包括PCIe Fabric架构、液冷技术、最大支持64GPU卡扩展等,是百度AI业务快速落地的重要基础设施。目前,X-MAN已经全面升级到第四代X-MAN 4.0,为AI和HPC等计算场景进行了新的优化设计。

在配置上,每台X-MAN 4.0包含8张 A100-80G NVLink GPU,并可支持8张200Gb/s的InfiniBand网卡,实现了高速存储,高速无阻网络,高性能计算于一体的超级AI计算机。

在架构上,X-MAN 4.0全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低AI作业中GPU的闲置时间。在MLCommons 1.1榜单中,X-MAN 4.0在同配置单机硬件性能名列TOP2。

同时为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的InfiniBand网络架构,此架构优化了网络收敛比,提升了网络吞吐能力,并且结合容错、交换机和拓扑映射等手段,得以将EFLOPS级算力的计算集群性能发挥到极致。

重磅技术咖为你深度剖析产品特点、应用与场景

3月16日19点,智东西公开课联合百度智能云、英伟达,策划推出的「百度智能云&英伟达新一代高性能AI计算集群」线上分享会。

本次分享会将由百度智能云的异构计算产品经理玄凌博、资深研发工程师孙鹏、资深系统工程师武正辉,以及英伟达解决方案架构师程帅四位技术专家参与,将围绕新一代高性能AI计算集群中的技术方案和应用进行深入剖析。

首先,百度智能云的玄凌博演讲主题为《GPU云产品体系介绍和应用场景分享》。将全面介绍百度智能云GPU云产品体系的各类产品特点,以及其典型应用场景,从而帮助用户选出合适GPU云产品,加速AI业务发展。

其次,百度智能云的孙鹏将以《超大规模AI异构计算集群的设计和优化》为主题带来分享。除了介绍EFLOPS级超AI异构计算集群的IB网络设计方法,孙鹏还将分享保证其高效运行的软硬件优化的最佳实践,并揭秘超大AI模型训练中的强大计算实力。

再次,百度智能云的武正辉将通过《超级AI计算机X-MAN技术揭秘》这一主题,深入介绍X-MAN的技术架构演讲历程,并重点分析不断推陈出新的技术特点和关键能力,是如何使其最终成为超大规模AI高性能计算集群中的硬件底座。

最后,英伟达解决方案架构师程帅将就《NVIDIA SuperPOD 赋能AI数据中心》这一主题,对NVIDIA SuperPOD 参考架构的设计特点,以及其在全球的落地案例进行分享。

完结课程
课程社群
精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...