- 开课提醒
拥有超过20年的解决方案架构师经验,深耕于中国及其他亚太国家市场,致力于为客户与合作伙伴提供关键技术支持。在分布式存储、高性能与分层存储、对象存储等领域具备深厚积累,尤为精通高性能文件系统技术及其在AI训练、高性能计算等场景下的应用实践。同时,对网络、服务器、私有云及备份容灾解决方案拥有广泛知识。始终秉持以解决复杂技术难题、为实际业务创造核心价值为使命。
拥有超过20年的解决方案架构师经验,深耕于中国及其他亚太国家市场,致力于为客户与合作伙伴提供关键技术支持。在分布式存储、高性能与分层存储、对象存储等领域具备深厚积累,尤为精通高性能文件系统技术及其在AI训练、高性能计算等场景下的应用实践。同时,对网络、服务器、私有云及备份容灾解决方案拥有广泛知识。始终秉持以解决复杂技术难题、为实际业务创造核心价值为使命。
- 智算集群中的数据(存储)基础设施挑战
- 全局数据平台:从数据孤岛到统一数据平面
- Tier 0与pNFSv4.2架构解析
- 面向未来的智能数据自治
随着大模型参数规模与训练集群容量持续暴增,计算与存储性能的“剪刀差”日益显著。在大规模集群中,GPU等待数据导致的空闲时间已成为制约总体算力效率的瓶颈。构建一个既能提供极致I/O性能,又能实现数据无缝流动与统一管理的智能数据基础设施,是推动AI产业发展的核心基石。
传统Scale-Out NAS存储存在性能天花板与数据孤岛问题,而将海量数据在不同存储层级与位置间手动迁移、拷贝,不仅效率低下,也带来了巨大的管理负担、一致性风险和成本压力。
在此背景下,Hammerspace通过其创新的并行全局文件系统、基于标准的pNFSv4.2协议、激活本地NVMe的Tier 0技术以及目标驱动的数据自治服务,为大规模AI/HPC工作负载提供下一代全局数据平台,使得数据真正成为可被随时随地、无缝访问的全局资源,进而提升智算集群的算力利用率。
12月4日19点,智猩猩公开课超节点与智算集群系列第 18 期将开讲,邀请到Hammerspace中国资深解决方案架构师刘松涛主讲,主题为《解锁下一代全局数据平台提升智算集群算力利用率》。
刘松涛老师将首先剖析智算集群在数据层面面临的核心挑战,继而深入介绍Hammerspace全局数据平台的架构原理与核心组件。之后,他将重点解析Hammerspace多项关键技术:如何通过Tier 0技术将训练作业的检查点(Checkpoint)写入速度提升数十倍,极大减少GPU空闲时间;为AI/HPC场景提供高性能存储;实现多站点协作工作流与复杂环境下的数据生命周期管理,帮助客户消除数据孤岛、加快数据价值的实现时间;最后,他将展望全局数据平台在未来智算中心及企业级用户场景中的核心价值与发展方向。