你眼中的存算一体是什么?

首先了解一下存储和计算。在冯诺依曼体系中计算和存储是分开的,要分三步——存储,计算加两者之间通信。存储分为三个层级,CPU/GPU/SOC里的缓存(SRAM)连接计算模块,缓存读写速度最快,能自动执行存储操作,快速做加法计算。但SRAM容量有上限,面积做的越大,成本越高,速度也越慢。

于是更多数据被转存到距离计算模块较远的内存上,从内存(DRAM)里读取数据,相比缓存速度慢了百倍到千倍,面积大了会出现功耗问题,对应只能不断提高存储密度,到现在16G之后举步维艰。

接着存储位置就转向容量更大的存储器(SSD),容量大,可内存(DRAM)相比缓存读取速度慢百倍到千倍,存储(SSD)速度又比内存慢了10倍以上,相当于CPU要读数据,从缓存迂回到存储器,可能要花上1万倍+时间。

而计算,有数据统计表明,计算所消耗的功耗其实很低,约60%的功耗都花在了搬运数据上。

因此,现在的存算一体,基本解决方案就是近内存计算或存内计算两种,本质上是要计算和存储离的更近或者在存储器内做计算。

近内存计算(NMC)。缓存+内存来组CP,3D封装,利用TSV(硅通孔技术)实现垂直通信,但成本高,不同型号的芯片带还要匹配大小,进行预设计和流片,搞完通用性还是问题,适用于AI,机器学习和数据中心等规模型应用需求。另一种是2.5D封装,主流技术是HBM(高带宽内存),目前由三星,SK海力士主导的HBM存储技术正在持续升级。

近存储计算(NSC)。是为了解决存储器距离计算模块太远,读取最花时间。SSD主要由闪存颗粒组成,需要控制器对其进行平均擦写管理,实现擦写均衡,于是有企业将控制器加上计算功能,或者让拥有计算模块的FPGA来处理数据并且充当闪存控制器,总之就是不通过CPU进行读取计算,而是直连存储器和计算,以此提升计算效率。

存内计算(IMC)。利用存储器的单元模拟特性做计算。这是在存储器内进行计算,CPU是通过1、0逻辑计算,而存内计算则是利用存储器内电阻特性进行计算,不只是用来区分电阻高低,而是通过电阻值来区分多种状态,电压和电阻都是变量,利用欧姆定律,电压和电阻倒数进行乘法计算,输出的结果就是输出的电流,一个晶体管就可以完成一次乘法计算过程。

这都是之前了解到的一些信息,实际上,除了闪存,MRAM(磁阻随机存取存储器)也可以做存算一体,比如三星和台积电等公司就在积极探索MRAM技术在存内计算领域的应用。存算一体技术允许数据存储和计算过程在同一个内存单元内完成,从而减少数据在处理器和存储器之间传输的能耗和时间延迟,提高计算效率。

此前,三星就在Nature上发表了全球首个基于MRAM的存内计算研究。研究利用基于28nm CMOS工艺的MRAM阵列芯片成功运行了手写数字识别和人脸检测等AI算法,准确率分别达到了98%和93%。此外,三星还开发了一种名为“电阻总和”的新型内存内计算架构,以解决单个MRAM器件的小电阻问题,从而降低功耗,实现基于MRAM的内存内计算。

台积电则在ISSCC 2021会议上提出了一种基于数字改良的SRAM设计存内计算方案,能支持更大的神经网络。2024年台积电携手台湾省工研院宣布成功研发出自旋轨道转矩磁性存储器(SOT-MRAM)阵列芯片,这一创新产品在工作速度方面达到10ns,进一步提高了存内计算性能。

SK海力士也曾开发出了新一代智能内存芯片技术PIM,还有首款基于PIM技术的产品样本,将计算功能添加到数据传输速度为16Gbps的GDDR6内存的产品。

最后

11月8日,在2024中国数据与存储峰会上,存算一体化将是一个重要话题,这一技术结合了计算和存储的优势,旨在通过高效的数据管理和处理来提升系统性能。随着AI应用的普及和数据量的激增,存算一体化不仅能够降低延迟,提高数据访问速度,还能在能效方面表现优异,特别是在边缘计算和智能设备中的应用上,敬请期待!