大模型时代的智算GPU集群

智猩猩超节点集群专题公开课 2024/12/13 19:30:00

课程讲师

陈祎阿里云智能集团智算集群产品专家

负责阿里云AI智算场景的异构计算集群产品规划及设计。

陈祎

阿里云智能集团智算集群产品专家

负责阿里云AI智算场景的异构计算集群产品规划及设计。

课程提纲

AI技术演进催生GPU集群的需求
集群算力扩展：Scale Up vs. Scale Out
大规模GPU集群性能优化
集群的稳定性挑战与优化实现
AI基础设施的2025展望

课程简介

智算集群已成为大模型基建军备竞赛的标配。

在大模型训练场景下，随着模型参数规模从千亿向万亿迈进，算力需求激增。同时，随着大模型在不同领域的应用落地，推理算力需求也迎来爆发式增长。据中信建设证券数据显示，2024年至2027年全球大模型推理的峰值算力需求量的年复合增长率为113%，远高于训练的78%。

为了应对不断增长的算力需求，全球各地智算集群建设正在如火如荼地进行之中，且规模也从早期的千卡、万卡快速增长到十万卡，甚至向百万卡级别发展。但是，集群规模的线性扩展并不直接等同于算力的线性提升。智算集群要发挥出极致有效的算力，需要从卡间和节点间的互联网络、软硬件适配、海量数据处理策略、运维保障等多个方面进行协同优化。

12月13日19:30，智猩猩智算集群公开课第6期将开讲，由阿里云智能集团智算集群产品专家陈祎主讲，主题为《大模型时代的智算GPU集群》。

本次公开课，陈祎老师将从产业一线的角度，分享AI技术演进下的GPU集群需求变化，并从Scale Up、Scale Out两个层面，阐述集群算力的扩展路径。之后，陈祎老师还将重点讲解大规模GPU集群的性能优化方法，以及稳定性挑战和优化实现，并对AI基础设施2025年的发展趋势进行展望。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...