无论是以数据中心和云计算为代表的高性能计算应用,还是以手机为代表的消费类应用,对处理器算力的需求越来越高,且要处理的信息也越来越复杂,单一类型和架构的处理器已经无法胜任。既要保证算力和性能,又要具备多类型任务的处理能力,还要控制好功耗和成本。能满足以上这些要求的,只能通过异构计算来实现,也就是在一个处理器系统内,需要集成如CPU、GPU、FPGA、AI、通信总线和接口等多种功能模块。
目前来看,高性能计算领域对异构计算的需求最为迫切,近些年,行业三大处理器厂商英特尔、AMD和英伟达都在基于自身的技术和产品优势,不断扩充技术和产品边界,以满足数据中心和云计算对异构处理器的需求。
英伟达凭借其GPU在AI训练方面的先天优势,在数据中心AI应用方面如鱼得水,但要想拓展更广阔的市场,只靠GPU还是不够,因此,英伟达一直在觊觎由英特尔和AMD统治的CPU市场,且动作频频。英特尔与英伟达正相反,其CPU具有绝对统治力,但在高性能GPU方面落后太多,近两年也在大力投入独立GPU显卡业务,以补齐短板。AMD则介于两者之间,CPU和GPU技术和产品相对均衡,且随着近几年技术和产品力的提升,市占率和营收打着滚地向上升,弄得英特尔如坐针毡,不过,AMD并没有满足于已经拥有的良好发展势头,要在CPU和GPU之外,再开辟出一片更广阔的天地,将异构计算进行到底。
风云再起近期,这三大处理器厂商又在异构计算方面动作频频,例如,英伟达迫切想要收购Arm,就是补上服务器CPU这一课,但因为涉及面太广,收购Arm没有成功。与英伟达相比,AMD收购赛灵思则顺利得多,目前已经基本完成,其目的就是要补上FPGA这一课。英特尔则于近期发布了新的处理器发展路线图,其中包括CPU和GPU的融合发展。
这三大处理器厂商的行动有望把异构计算推向一个新的发展阶段。
英伟达失去Arm了?
在宣布收购Arm之前,英伟达就已经在进行Arm架构CPU的研发了,且一直在延续。
近期,英伟达首席执行官黄仁勋(Jensen Huang)表示,关于Arm,该公司仍然雄心勃勃,有很宏伟的计划,为从数据中心到机器人技术的各种应用创建一个完整的基于Arm的CPU产品组合。
据悉,该公司进行着多个Arm项目,例如即将进入自动驾驶汽车,工业自动化等的新Orin SoC。黄仁勋表示,英伟达围绕 Arm 架构进行了大量的CPU开发,过去几年,Arm在超大规模企业和数据中心稳步发展。这促使该公司加速高端CPU的开发。
在开发Arm 架构处理器的同时,英伟达仍然会继续支持x86 CPU平台,因为这毕竟是市场的主流产品。
对于异构计算,黄仁勋表示,英伟达将横跨CPU,GPU和DPU的三芯片战略。另外,无论是x86还是Arm,都将开发出最好的CPU产品。英伟达将与计算机行业的合作伙伴一起,提供世界上最好的计算平台,以应对这个时代最具影响力的挑战。
据悉,英伟达有望于2023上半年推出基于Arm的Grace CPU,用于大型AI和高性能工作负载。而Grace只是个开始,之后还会有一系列产品推出。黄仁勋表示,该公司将把Arm CPU融入起加速计算平台的全系列方案当中,也就是说,英伟达的目标是将Arm 架构CPU全面融入其GPU方案当中。今后几年,英伟达GPU+CPU融合发展的策略或将越来越清晰。
AMD紧追不舍
在三大处理器厂商当中,无论是规模还是营收,AMD都逊于英特尔和英伟达,因此,该公司正在借助近几年强劲的上升势头,缩小与两大竞争对手的差距。
近期,AMD完成了对赛灵思的收购,实际上,在宣布收购后者之前,AMD早就获得了其相关授权,一直将赛灵思的IP与其处理器紧密结合,相关研发正在进行当中,预计将在2023年推出首款融合产品。
收购赛灵思肯定是为了应对高性能计算市场的增长需求。目前,与赛灵思相比,AMD擅长服务器CPU,还有一系列数据中心用GPU,而赛灵思在SmartNIC、AI推理和AI分析方面有不少IP资源、技术和产品。合并后,AMD就在与Marvell、英特尔和英伟达的竞争中增加了砝码,特别是在AI推理方面,赛灵思能进一步强化AMD的竞争力。另外,AMD也正在数据中心GPU的AI训练市场发力,这方面,其与英伟达有较大差距,而赛灵思的AI软件堆栈更加成熟,这将为AMD GPU带来急需的软件资源和技术。
英特尔的CPU+GPU融合又进一步
当下,超级计算机使用通用CPU来运行需要强大单线程性能的工作负载,以及用于高度并行工作负载的计算 GPU 加速器。目前,这种架构已被证明在性能、功耗和成本方面是平衡的。在此基础上,CPU和GPU资源的更紧密集成将进一步提高性能,并使更多的工作负载能够访问加速计算。
在高性能计算领域,英特尔强在CPU,而GPU显然是短板。因此,该公司正在不遗余力地开发高性能GPU,并将其与CPU融合,以提升计算效率。
最近,英特尔发布了代号为Falcon Shores的新架构设计,它将通用x86处理器内核和Xe-HPC GPU内核整合到一个Xeon插槽中,该公司还为此开发了共享高带宽内存。该产品预计将于2024年上市。
Falcon Shores的特点就是利用下一代封装、内存和IO技术,为计算大型数据集和训练巨型AI模型的系统提供强大的性能和效率改进。
实际上,Falcon Shores就是整合了CPU和GPU的XPU,它使用了MCM(多芯片模块)封装形式,可以根据应用灵活调整x86和Xe-HPC的内核比例。CPU和GPU将使用统一的高带宽内存(英特尔开发的一种全新类型内存)来提高性能并大大简化GPU编程。
结语综上,高性能计算处理器三强正在异构计算研发上持续发力,以争取实现CPU、GPU、FPGA、AI等更好的融合。
然而,要实现以上目标,除了在芯片设计层面实现突破之外,芯片制造、制程和封装才是将理念化为实际产品的关键。在这方面,传统IDM英特尔似乎更具优势,而AMD原本也是IDM,只是后来将芯片制造业务剥离出去了,实际上,该公司依然具备制程和封装的基因。而相对而言,英伟达是一家纯粹的Fabless,在制程和封装方面对合作伙伴的依赖度更高一些。
过去几年,AMD因其率先推向市场的chiplet和互连技术而占得了先机,在此基础上,该公司推出了新一代封装技术,也就是3D堆叠V-Cache。在这方面,赛灵思也可以为AMD提供帮助,因为赛灵思已经为其自适应FPGA平台构建了一系列高性能封装和互连技术。
据悉,英特尔的Falcon Shores架构可能要依赖其Intel 20A或Intel 18A制程工艺去实现,并使用该公司自研的高级封装技术进行整合。
英特尔表示,Falcon Shores将是该公司到2027年实现ZettaFLOPS级超级计算机目标的关键步骤。为了在5年内将超级计算机的性能提高1000倍,英特尔将需要新的处理架构(即x86和Xe架构的改进与融合),新的工艺技术和先进的封装方法,更快的内存和I/O接口,以及新的系统架构。
对于英伟达而言,异构整合的推进,在制程和封装方面会略逊于英特尔和AMD,不仅在高性能应用领域,消费级GPU也有体现,例如,英特尔希望Meteor Lake通过集成GPU解决方案提供类似于独立显卡的性能,发烧友细分市场还将有独立的GPU,这将与英伟达的Ada Lovelace(RTX 40系列)和AMD 的RDNA 3(RX 7000系列)GPU方案竞争。这里,AMD可能会将RDNA 3 GPU集成到其CPU中(采用3D芯片堆叠封装),英特尔也有类似的自研方案。然而,目前英伟达还没有与那两家竞争的解决方案。虽说英伟达也在发展采用MCM封装的GPU方案,但其异构属性不强,至少还没有将x86架构CPU融入进去,这或许就是该公司努力追求Arm,并已进行多年Arm架构CPU研发的一个原因,因为英伟达先天不具备x86基因,预计Arm才能帮助该公司实现真正的异构计算。