英韧科技陈杰:下一代存储中的CXL技术探索

8月28日,2024全球闪存峰会在南京金陵饭店盛大召开。主论坛上,英韧科技联合创始人、数据存储技术副总裁陈杰发表主题演讲《打造未来存储新纪元-下一代存储中的CXL技术探索》,分享CXL协议与生态的演进,技术落脚点及对未来存储的展望。

下一代存储视角下的CXL协议与生态演进

CXL生态的演进自2019年首次发布至今,主要分为三个阶段,第一阶段是单点直连方案,主要用于扩容CPU的存储资源,后来引入CXL Switch概念,主要目的是让每个CPU可以独享直连的额外内存。

第二阶段CXL 2.0是单个系统内CPU池化概念,scale up,做到内存的动态调配,当某个CPU闲置,可以释放内存到存储池给其他CPU共享,实现降本增效。

第三阶段到了scale out概念,即超出单个系统,连接多个服务器系统。让不同服务器中的CPU可以共享跨服务器系统的内存资源,形成更多的服务器互联。

在这种扩展网络中,内存共享尤为重要,尤其AI计算领域。AI处理中生成的数据或计算结果可以被系统中的其他部分直接访问,而不需要复制数据到每一个本地节点,直接提升了数据处理的效率和速度。

CXL技术的后续版本CXL 3.1基于scale out引入了更高级的功能——全局集成内存(GIM)和及其统一编址。即在全局范围内,不同域的内存可以视作一个统一的内存池的一部分。统一编址允许不同物理位置的CPU访问同一内存资源,就如同这些资源在本地一样。

其中统一编址是一个关键技术应用,它允许跨域的CPU像访问本地内存一样访问内存池。这样的架构大大提升了跨域操作的存储效率和速度,尤其适合那些需要高速大规模数据处理和实时响应的应用场景,如大规模AI模型训练和实时数据分析。

CXL技术对系统软件生态带来的影响有哪些?

1、CXL技术允许将底层的内存资源抽象化为一个统一的内存池,供操作系统直接使用,那么操作系统和应用就无需关注内存的具体硬件构成,可以提高资源的灵活性和可用性。

2、通过CXL,系统可以将不同类型的内存资源(如DDR、NAND等)特性经优化统一提供给上层应用,使得应用能够根据数据的使用模式(如冷热数据)优化内存使用。

3、尤其在多租户环境中,内存可以根据需要动态分配给不同节点,同时还支持基于服务质量(QoS)的差异化服务。

4、一写多读,在如AI和大数据模型的推理和训练场景中,其计算结果可以存储在一个共享内存池中,供多个计算任务访问。

英韧认为CXL本质的落地点在于CXL内存语义的延迟尺度。当前内存访问类型分为三种——直连的本地DRAM、通过系统互连的远端DRAM,以及通过CXL互联的内存。虽然理论研究表明CXL可以实现介于本地和远端DRAM之间的较低延迟,约180到250纳秒之间,但实际应用中,延迟随着带宽的增加而逐渐增加,尤其是在CXL内存中更为明显,延迟已经达到微秒级别。

如上右图,这四条线分别是近端的DRAM(绿色线),远端的DRAM(蓝色),近端的CXL内存(红色),远端的CXL内存(紫色)。四个场景是只读、读写2:1,读写1:1,还有只写的场景,可以看到,当带宽逐渐增加,延迟有所增加。

产品形态方面,目前市面上的CXL解决方案包括结合DDR和NAND的混合内存产品,这要求极高的缓存命中率(几乎100%)来维持CXL内存的性能标准。这些混合产品的设计旨在通过优化内存访问效率来提高性能,尤其是在数据密集型的AI计算和大规模模型训练场景中。

该产品形态还可以提供持久性存储,保证数据断电不丢失。在大模型计算中,中间数据频繁地更新和保存(下刷)到存储系统是常见的需求,以便确保计算过程中的进度和结果不会因系统故障而失效。该形态除了考虑技术还要考虑成本结构,成本主要是集中在DDR缓存上,NAND和SCM(存储级内存)则是辅助。

另一种产品形态,不仅要支持标准的内存语义操作(如64字节的读写),还能并行处理更大的数据块,产品设计用于高效处理大规模数据。成本构成主要集中于SCM或其他新型存储介质,而传统的DDR则是辅助。主要针对高性能的存储需求,面向高端市场。

最后

传统的NVMe SSD存储设备正在持续的为当代数字基础设施提供大容量高并行度的解决方案,同时超低延时(百纳秒级至千纳秒级)的新一代存储介质配以CXL内存语义新架构将开创存储领域的新时代。为此英韧科技正在改进传统的NVMe架构,采用多级并行硬件流水线技术,探索CXL架构下的更高带宽以及超低延时新设计。

英韧成立7年,从上述的技术分享来看,其始终专注于存储技术的研发和创新。目前已经在嵌入式系统和数据中心领域提供了基于PCIe 3.0、4.0和5.0的解决方案,展示了它在行业中的技术实力和市场地位,期待英韧与合作伙伴及供应商共同开发的下一代存储技术,推动存储行业的发展。