服务器变革:存储从HBM到CXL

本文参考自“从云到端,AI产业的新范式(2024)”,通常单台传统服务器价格在1万美金以内,而搭载8张H100算力卡的DGX H100AI服务器价值量可达40万美(300万人民币左右)。

处理器性能不断提升,“内存墙”成为计算机系统的瓶颈。计算机系统的运行受到处理器和内存的配合影响,但处理器性能因摩尔定律不断提升,而内存DRAM的传输带宽没有跟随工艺的演进而快速增长,导致访存时延迟高、效率低,严重制约处理器性能发挥,即出现“内存墙”。在AI和视觉等领域,需要大量的内存带宽来支持复杂的计算操作,若内存性能落后,会导致实际算力下降50%甚至90%。

HBM是目前用于打破“内存墙”的重要技术之一。高带宽存储器(HBM)是一种基于3D堆栈工艺的高性能DRAM,可以提供更高的内存带宽和更低的能耗,适用于高存储器带宽需求的应用场合,如HPC、网络交换设备等。最新的HBM3E产品可提供超过1TB/s的数据带宽,具有8Gb/s的I/O速率,缓解了因内存部件延迟而阻碍算力增长的问题。

HBM技术细节请参考“HBM三足鼎立:海力士、三星和美光争夺战”。

根据Yole Group统计,2023年海力士以55%的营收占比在HBM市场占据主导权,其后是三星和美光,营收占比分别为41%和3%。美光早期在堆栈式DRAM的探索中最先选择了HMC技术,在数据传输时延迟和速度方面存在劣势,但其及时转向,在2020年推出首款HBM2产品,此后跃过HBM3,直接投入研发HBM3E,并于2023年7月发布24GB 8-HighHBM3E。

三家原厂最新的HBM3E产品对比来看,低能耗是美光的主要竞争优势,三星拥有更小的堆叠间隙,有利于更高层数堆叠,SK海力士则得益于其开发的MR-MUF技术,散热性能优异。

AI服务器需求核心在于更大带宽的存储,带来了存储技术路线变革:

1)CXL(compute express link):全新的互联技术标准,其带来的DRAM池化技术可以大大节约数据中心的建设成本,同时带动DRAM的用量。

2)MCR/MDIMM(Multiplexer Combined Ranks):大大提高内存带宽,AMD已经在MemCon 2023上表达了它帮助推动JEDEC的MRDIMM开放标准 的承诺,英特尔也与SK hynix和瑞萨合作,基于与MRDIMM类似的概念,开发了多路合并阵列(MCR)DIMM

3)PCIe 5.0(Peripheral Component Interconnect Express 5.0):新一代总线技术,构建了更加高速的串行通信系统标准。

MCR/MRDIMM可以很好的满足AI服务器对内存带宽的高需求,该技术将多个DRAM内存模块组合在一起,通过将两个Rank形成伪多内存通道(Pseudo Channel),并使用专门的控制器(接口芯片)来管理它们之间的数据传输,并大大提高内存带宽,理论上,MCR/MRDIMM内存的带宽是DDR5的两倍

澜起科技已于2022年完成MCR控制芯片(MRCD/MDB)研发。

美光在HBM市场起步晚于三星和SK海力士,但于2023年7月率先发布HBM3E完成新产品反超。后续产品规划上,根据美光披露的产品路线图,其预计将于2025年发布36GB 12-High HBM3E用以完善其HBM3E产品线,并于2026年推出革命性产品36GB 12-High HBM4,带宽预计将超过1.5TB/s。

预计在2027年前,美光将对HBM4产品容量进一步升级,发布48GB 16-High HBM4。2028年,美光预计发布带宽升级至2 TB/s 以上的HBM4E。2023-2028年内,美光几乎年均推出一款HBM系列新产品,展示出其对高速增长HBM市场的勃勃雄心。

澜起科技拥有两大产品线,互连类芯片产品线和津逮服务器平台产品线。其中,互连类芯片产品主要包括内存接口芯片、内存模组配套芯片、PCIe Retimer芯片、MXC芯片、CKD芯片等,津逮服务器平台产品包括津逮CPU和混合安全内存模组。

新品序列基本在2023年完成研发及送样,未来业绩核心驱动一是DDR5芯片不断迭代保持价值量,二是新品逐步上量打开成长空间。高性能运力产品方面Retimer,MRCD/MDB已经实现出货,并在推进开展DDR5第四子代RCD、第二子代MRCD/MDB芯片和PCIe 6.0 Retime芯片的研发。

聚辰股份是国产EEPROM龙头厂商。产品主要包括EEPROM、音圈马达驱动芯片、智能卡芯片和NOR Flash,并广泛应用于智能手机、汽车电子、白色家电等众多领域。公司持续拓宽EEPROM产品的应用领域,与澜起科技合作开发的SPD EEPROM产品于2021年第四季度实现量产。

内存迈入DDR5世代,SPD EEPROM必需性突显。除内存接口芯片RCD、DB外,串行检测集线器(SPD)是内存管理系统的关键组成部分,适用于DDR5系列LRDIMM、RDIMM、UDIMM、SODIMM等内存模组。伴随DDR5内存渗透率不断提升,SPD EEPROM将迎来更广阔的的市场空间。