近日,三星电子在顶级学术期刊 Nature 上发表了全球首个基于 MRAM(磁性随机存储器)的存内计算研究。
存内计算由于毋需数据在存储器和处理器间移动,大大降低了 AI 计算的功耗,被视作边缘 AI 计算的一项前沿研究。
新计算架构填补MRAM空白
存算一体化技术路线,处于多种存储介质百花齐放的格局。根据存储器介质的不同,目前存算一体芯片的主流研发集中在
易失性存储器,如SRAM、DRAM
非易失性存储器,如RRAM,PCM,MRAM与闪存等
其中比较成熟的是以SRAM和MRAM为代表的通用近存计算架构,这种方案通常采用同构众核的架构,每个存储计算核(MPU)包含:
计算引擎(Processing Engine, PE)
缓存(Cache)
控制(CTRL)
输入输出(Inout/Output, I/O)
非易失性的RRAM(电阻式随机存取存储器)和PRAM(相变随机存取存储器)是存内计算最常用的两类存储器。对比其他存储器:
MRAM磁阻内存在运行速度、寿命、量产方面都有明显优势
功耗也远低于传统DRAM
还具有非易失的特点,即断电不会丢失数据
不过一直以来,MRAM磁阻内存很难用于内存内计算,因为它在标准的内存内计算架构中无法发挥低功耗优势。
三星电子的研究人员构建了一种基于MRAM的新存内计算架构,填补了这种空白。通过结构创新,实现了基于MRAM(磁阻随机存取存储器)的内存内计算(In-Memory Computing),进一步拓展了三星的下一代低功耗人工智能芯片技术的前沿领域。
三星研究团队设计了一种名为“电阻总和”(resistance sum)的新型内存内计算架构,取代标准的“电流总和”(current-sum)架构,成功开发了一种能演示内存内计算架构的MRAM阵列芯片,命名为“用于内存内计算的磁阻内存交叉阵列”(crossbar array of magnetoresistive memory devices for in-memory computing)。
这一阵列成功解决了单个MRAM器件的小电阻问题,从而降低功耗,实现了基于MRAM的内存内计算。按照三星的说法,在执行AI计算时,MRAM内存内计算可以做到98%的笔迹识别成功率、93%的人脸识别准确率。
论文特别写道,该研究并非和基于其他存储器的存内计算架构竞争。到目前为止,没有一种存储器类型在电子产品中占据绝对主导,因为不同类型的存储器各有自身的优点和缺点。因此,基于不同存储器的存内计算也可能发展成不同的架构。
从这个角度看,三星电子通过填补基于MRAM存储器的存内计算架构空白,有助于存内计算发展。
如下图所示,这里缓存可以是SRAM、MRAM或类似的高速随机存储器。各个MPU之间通过片上网络(Network-on-Chip, NoC)进行连接。每个MPU访问各自的缓存,可以实现高性能并行运算。
基于高速缓存的通用近存计算架构
基于MRAM的存算一体主要有两种方案:
第一种方案是利用辅助外围电路,跟上述SRAM存算一体类似,如图(a)
一种典型的可重构存算一体实现方案,其可以在存储应用与存算一体应用之间进行切换
由于RRAM/PCM/MRAM非易失性电阻式存储原理,其具有不同的电路实现方式
第二种方案是直接利用存储单元实现布尔逻辑计算,如图(b)
这种方案直接利用存储单元的输入输出操作进行逻辑运算
根据不同存储器存储单元的结构与操作方法不同,可以有不同的实现方式
基于RRAM/PCM/MRAM的存算一体基本原理
(a)利用外围电路方案
(b)利用存储单元方案
未来或可用于生物神经元网络
对于这项研究,研究人员写道,MRAM阵列运行存内计算的一个重要挑战是构建AI SoC(片上系统),将许多阵列和数据转换器、数字电子设备进行集成。研究人员还强调,宽泛来说,内存阵列不仅可以用来运算神经网络算法,也可以作为潜在的生物神经元网络载体。
2021年9月,三星电子和哈佛联合在Nature子刊Nature Electronics上发表了名为《Neuromorphic electronics based on copying and pasting the brain(基于复制和粘贴大脑的神经形态电子学)》的论文,提出了一种将大脑神经元连接图(neuronal wiring map)“复制、粘贴”到高密度3维存储网络上的可能。
三星此前“复制、粘贴”大脑的研究(图片来源:Nature)
MRAM阵列研究的第一作者Seungchul Jung称,存内计算与人类大脑的计算类似,因为人类的计算也发生在记忆或突触网络中。虽然MRAM阵列当前的计算目的并非模仿大脑,但这种固态存储网络将来可能会被用作模拟大脑突触的平台。
为什么要提出存算一体
早在1992年,中国工程院院士许居衍便预测,2014-2017年,人类将进入硅技术生命曲线上的拐点,即将进入“后摩尔时代”。现有冯诺依曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。人工智能的发展已经被算力不足,能效过低约束。
摩尔定律及AI算法算力的演进发展
在冯·诺依曼架构中,存储器与处理器是两个完全分离的单元,处理器根据指令从存储器中读取数据、完成运算,并存回存储器。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。
以数据为主的AI计算之下,冯·诺伊曼架构的“存储墙”和“功耗墙”挑战凸显。半个多世纪后的今天,有没有一种方式可以翻越“两面墙”?
随算力增加,处理器核心数增多,每核心可用带宽越来越少,也就限制了整体速度。搬运数据,成为相当大的瓶颈。
当下的计算处理器如CPU,GPU或AI专用芯片等,均采用冯诺依曼架构设计,80%的功耗发生在数据传输上,99%的时间消耗在存储器书写过程中,而真正用于计算的能耗和时间其实占比很低。
人工智能迅猛发展的当下,人工智能算法对逻辑单元与存储单元之间信息交互能力的需求相对于传统任务更严苛。AI计算以数据为主,大量数据搬运导致功耗居高不下。到2025年,全球数据中心将使用全球20%的电量。
AlphaGo下棋打败人类,但人类只用了20瓦的大脑能耗,而AlphaGo是2万瓦。如果更多脑力劳动被机器取代,芯片散发的热量会让地球变得滚烫。
只有低功耗基础上的大算力才是可持续的。
解决存储墙最根本的方案,就是把存储和计算融合到一起,用存储单元去做计算。
存算一体化是将计算机中的运算从中央处理器转入内存中进行,直接在存储单元内部进行运算,缓解数据搬运,可大幅降低数据交换时间以及计算过程中的数据存取能耗。
存算一体成为现阶段实现高带宽、低功耗、计算需求的一条有效途径。
冯诺依曼架构与存内计算对比
存算一体化迎来爆发时刻
受限于芯片设计复杂度与制造成本问题,以及缺少杀手级大数据应用进行驱动,存算一体一直不温不火。
存算一体技术(PIM :Processing in-memory)被视为人工智能创新的核心。它将存储和计算有机结合,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。
尤其是国内一大批存算一体技术公司伴随着融资信息浮出水面,国外的三星和Myhtic也是该领域的潜心研究者,他们近来也动作频频,一个新的存储计算时代似乎将要来临:
5月Myhtic C轮融资了7000万美元,迄今为止已共计筹集了1.65亿美元
6月10日,知存科技宣布完成亿元A3轮融资,产品线扩充及新的产品量产,加上此前的两轮融资,截至目前,知存科技已完成累计近3亿元的A轮系列融资
6月25日九天睿芯获亿元级A轮融资,用于新产品研发和人员扩充的工作
7月2日,杭州智芯科完成近亿元的天使轮融资,用于继续搭建团队,启动ACIM下一阶段技术研发与市场拓展
8月24日,后摩智能宣布完成3亿元人民币Pre-A轮融资,将用于加速芯片产品技术研发、团队拓展,早期市场布局及商业落地
8月24日,苹芯科技完成近千万美元Pre-A轮融资
动辄亿元的资本涌入,前仆后继的玩家踊跃跳入,充分证明了资本对存算一体这个赛道的青睐,为何存算一体芯片市场会如此被看好?
一是算力和运算数据量每年都在指数级增加,然而摩尔定律已经接近于到极限,每代芯片只有10-20%的性能提升
二是冯诺依曼架构的算力已经被内存墙所限制,只有解决内存墙问题才能进一步提高算力
三是与深度学习网络运算模型中的基本算子高度契合,使得基于存内计算架构的芯片相比于市场已有的AI加速芯片,在计算效率(TOPS/Watt)方面有数量级上的提升
四是通用性计算芯片在服务特定AI算法方面并不具备性价比优势,在各种解决方案中,存内计算是最直接也是最高效的
写在最后
在智能时代里,从可穿戴到自动驾驶,功耗约束下场景里的计算效率都是永恒的主题,存内计算是解放算力、提升能效比最强有力的武器之一。存算一体化技术是颠覆传统冯诺依曼架构的存在,是未来趋势,但从消费级到企业级市场的应用普及,可能需要十年甚至更长的时间来扎实基础,升级完善。
存内计算技术的发展是一条追求高能效计算的重要技术路线,如何有效控制存内计算接口是一个重要挑战。谁拥有兼顾计算密度与存储密度的存内计算硬件架构,谁就拥有了打开高能效计算的金钥匙。
“存算一体”打破了运行70年的冯诺依曼架构,将成为AI时代主流的计算架构。目前国内外在存算一体方面都处于起步阶段,存算一体正处于学术界向工业界迁移的关键时期,所以这可能是我们发展国产芯片的另一大重要方向。