- 课程回放
上海交通大学硕士,负责校级“π”超算系统的运维和数据密集应用的优化。先后协助物理与天文学院、瑞金医院等多个研究团队完成应用优化,并积极参与HPC软件包管理器Spack的开发工作,以及容器化HPC应用的研究。所开发的软件部署方法和异常作业诊断方法已应用于生产平台,极大提高了运维效率和用户满意度。
上海交通大学硕士,负责校级“π”超算系统的运维和数据密集应用的优化。先后协助物理与天文学院、瑞金医院等多个研究团队完成应用优化,并积极参与HPC软件包管理器Spack的开发工作,以及容器化HPC应用的研究。所开发的软件部署方法和异常作业诊断方法已应用于生产平台,极大提高了运维效率和用户满意度。
- 上海交通大学校级人工智能平台建设的最新进展;
- 基于NVIDIA DGX-2的上海交通大学校级AI计算平台的搭建与特性
- 如何利用容器技术在AI计算平台实现高效的应用部署
- 上海交大用户在DGX-2上应用优化的成功案例
10月25日,上海交通大学(下称上海交大)AI计算平台完成技术验收,正式上线服务。
上海交大AI计算平台由8台NVIDIA DGX-2组建,包含128张NVIDIA Tesla V100计算卡,深度学习张量计算能力可以达到16PFLOPS;通过搭载NVIDIA NVSwitch技术,GPU间带宽高达 2.4 TB/s;AI计算平台采用可扩展架构,使得模型的复杂性和规模不再受传统架构的限制,可以应对众多复杂的人工智能挑战。
然而搭建AI计算平台,除了需要考虑基础硬件的算力能否满足日益复杂的AI计算需求之外,还要考虑应用部署的便捷性、计算资源调度的灵活性等因素,因为AI计算平台不仅仅是具有超强算力的简单的硬件堆砌,而是一个复杂的软硬件一体化系统。
在应用部署方面,由于现在的人工智能和高性能计算应用往往需要使用大量更新频繁的框架、库、驱动程序等复杂的组件,所以如果单纯依靠人工来调试和维护运行环境,不仅需要耗费大量的人力,工作效率也会受到很大的影响。上海交大AI计算平台采用NVIDIA NGC容器技术,将应用程序与其依赖的系统库一起打包发布,简化了软件部署流程和软硬件协同优化,大大降低了应用部署的复杂性和用户使用平台的成本;
在资源调度方面,如何避免不同负载在计算平台内的相互干扰,提高不同应用在平台上的运行效率也是搭建AI计算平台不得不考虑的要素之一。上海交大AI计算平台创新性的采用了“SLURM + Singularity”的管理模式,可以为用户提供可伸缩、可扩展、高可靠的资源调度功能和最佳性能的应用支持。
上海交大AI计算平台自部署以来,极大地加速了全校人工智能和高性能计算科研应用,使科研计算运行效率提升30-18000倍;在一些关键任务上,使原本需要数周甚至数月才能完成的计算任务,可以在几小时内完成计算,大大提高了科研实验的迭代速度和科研效率。可以说上海交大AI计算平台已经成为了高校打造AI计算平台的成功典范。
11月19日,智东西公开课联合NVIDIA推出深度学习&GPU加速公开课NVIDIA专场,由上海交大网络信息中心工程师韦建文主讲,主题为《为深度学习和科学研究搭建AI计算平台的关键与挑战》。
韦建文老师将从上海交大AI计算平台的搭建、遇到的挑战、架构特性、不同容器技术的差异、如何利用Spack创建自己的容器镜像到如何实现计算资源的灵活调度、实际应用优化案例等方面进行系统讲解,为你解密上海交大AI计算平台。