- 开课提醒
曾供职于Google,AWS,Bloomberg等科技公司担任工程和管理职位,有十五年的技术行业经验,在高性能服务器应用,云架构设计,移动应用和数字广告技术等领域有丰富经验。
专注于大语言模型的边缘部署、Arm 服务器软件生态系统的建立以及自动驾驶软件早期概念验证(PoC)等关键领域,通过提供真实世界的软件需求,引领 Arm 软件生态的技术转型。
在担任 Arm 台湾的业务拓展经理期间,沈纶铭致力于强化台湾 ICT 生态系统。他善用 Arm 运算架构在服务器、边缘计算和 Windows on Arm (WoA) 领域的高性能与低功耗优势,通过与 OEM、ODM 及 ISV 合作伙伴的深入协作,成功为生态系统创造价值并扩大 Arm 在关键市场的影响力。
凭借逾二十年的软硬件协同设计经验,沈纶铭在技术领域奠定了坚实的基础。他的专业能力涵盖多核缓存一致性架构与片上系统(SoC)设计,其在噪声消除领域的多项算法已被应用于多款主流智能手机与笔记本电脑。作为一位积极的开源社区参与者,他持续撰写关于大语言模型边缘部署的技术文章,与全球开发者建立联系并分享专业知识,奠定了其在该领域的技术意见领袖地位。沈纶铭拥有新竹清华大学通讯工程研究所硕士学位,是经 SGS-TÜV 认证的半导体汽车功能安全专家,并拥有多项美国与中国算法专利。
专注于大语言模型的边缘部署、Arm 服务器软件生态系统的建立以及自动驾驶软件早期概念验证(PoC)等关键领域,通过提供真实世界的软件需求,引领 Arm 软件生态的技术转型。
在担任 Arm 台湾的业务拓展经理期间,沈纶铭致力于强化台湾 ICT 生态系统。他善用 Arm 运算架构在服务器、边缘计算和 Windows on Arm (WoA) 领域的高性能与低功耗优势,通过与 OEM、ODM 及 ISV 合作伙伴的深入协作,成功为生态系统创造价值并扩大 Arm 在关键市场的影响力。
凭借逾二十年的软硬件协同设计经验,沈纶铭在技术领域奠定了坚实的基础。他的专业能力涵盖多核缓存一致性架构与片上系统(SoC)设计,其在噪声消除领域的多项算法已被应用于多款主流智能手机与笔记本电脑。作为一位积极的开源社区参与者,他持续撰写关于大语言模型边缘部署的技术文章,与全球开发者建立联系并分享专业知识,奠定了其在该领域的技术意见领袖地位。沈纶铭拥有新竹清华大学通讯工程研究所硕士学位,是经 SGS-TÜV 认证的半导体汽车功能安全专家,并拥有多项美国与中国算法专利。
- 开场致辞
- 在 Arm 服务器上实作 llama.cpp 分布式大模型推理全流程
- 问答环节
当大模型从实验阶段迈入真实业务场景,其推理效率、可扩展性与部署成本已成为影响其规模化应用的核心因素。尤其是在多节点、高并发的生产环境中,能否实现稳定、高效且低成本的分布式推理,直接决定了大模型能否真正支撑起实际业务需求。
llama.cpp 是一款轻量高效的开源大模型推理框架,凭借优秀的 CPU 推理性能、成熟灵活的低精度量化方案,已成为 AI 开发者部署本地大模型的重要工具。它采用 GGUF 作为量化模型的标准存储格式,能够在精度损失可控的前提下显著降低模型的内存占用与计算开销,为资源受限环境下的大模型运行提供了可行方案。
然而,在 Arm 架构服务器上构建基于 llama.cpp 的分布式推理平台,会涉及模型的量化适配、多节点协同调度、内存与计算资源优化等一系列复杂的技术环节,开发者如何快速上手呢?
12月17日19 点,智猩猩联合 Arm 策划推出的「Arm 服务器大模型推理与云应用优化系列公开课」第4期将开讲, 主题为《在 Arm 服务器上实作 llama.cpp 分布式大模型推理全流程》,由 Arm 首席解决方案架构师沈纶铭、安谋科技高级首席应用工程师修志龙共同主讲。同时,Arm 资深开发者布道师象飞也将为本次公开课带来开场致辞。