AI算力稀缺似乎是GPU的事情,与CPU似乎关系不大,说什么通用算力可以大有可为?我以前也这样看。
但是8月8日,由开放计算社区OCP及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办的“2024开放计算中国峰会”,众多专家给了新的思路。
通用算力的目标不是“重复造轮子”,与GPU一较短长,争夺市场。通用算力的目标是向生成式AI的纵深发展,拓展推理应用市场。GPU算力成就了生成式AI训练,成就了大模型。但是大模型是起点,与行业应用结合的推理,才是更具有价值的场景。
从训练到推理,计算仍然以GPU为主,看上去顺理成章,实则充满变数,要知道行业市场需要通用大模型和行业专用数据的结合,甚至会更加倾向小模型。如此,CPU通用算力大有可为,也更为行业用户所熟悉。
为了更好满足AI推理市场的应用,需要CPU在总线互联带宽、内存带宽及容量等方面持续优化,使得系统功耗、总线速率、电流密度不断提升……在多种叠加因素上取得创新和突破。
在这样的背景下,CXL技术得到普遍关注和重视,也被寄予厚望。在“2024开放计算中国峰会” 开放系统设计与CXL 互连技术论坛期间,记者采访了英特尔数据中心和人工智能部门至强客户解决方案部总经理李亚东、阿里云超高速互联负责人孔阳、浪潮信息内存池化项目负责人陈曦。
李亚东表示,CXL技术主要解决的就是计算处理器和内存、加速器之间互联问题,基于PCIe物理层协议,扩展了计算可以使用内存带宽和容量,可以是单机扩展的方式,也可以是内存池化的方式。
“CXL基于PCIe物理层传输信号,但在协议层面上引入了新的特性和改进,显著提升了系统中处理器、加速器和内存设备之间的数据交换效率和缓存一致性,为高性能计算、大规模数据处理提供了强大的支持。” 李亚东说。
李亚东强调,标准化至关重要,也是产业生态的基础,惟有标准化才能够最大程度发挥产业界的能力,形成可持续化发展。英特尔是CXL标准的主要贡献者,在Linux Kernel里也贡献了大量CXL相关代码。英特尔至强CPU从SPR(Sapphire Rapids),也就是第四代至强可扩展处理器开始支持CXL,并且在后续每代至强 CPU中都支持了最新的CXL协议,并提供了Flat 1LM、Heterogenous interleaving、2LM等多种创新内存应用模式,为业务应用创新提供了新的技术手段。
孔阳结合阿里云业务应用实践,披露了阿里云在CXL技术上产品规划和解决方案。他说,CXL技术的主要价值在于实现了对CPU内存带宽容量的扩展和池化。无论生成式AI,还是云计算对内存灵活性都有很高的要求,借助CXL内存池化的技术方案,为阿里云业务应用创新提供了新的手段和方法。
据了解,在互联架构创新上,阿里云推出了业界首个基于CXL Switch内存池的业务系统解决方案,通过CXL Switch Box系统,提供大容量、高性能、灵活性强的池化内存系统。在设计上,新的系统选用了阿里自研AliSCM、AliMemory等部件,并结合了FM管理、BMC管理软件,实现了10TB级内存容量的池化与共享。同时,实现了大容量、低延迟、高带宽的内存语义访问,具备了池化内存按需、快速动态申请、释放的能力。在阿里云应用实践上,该系统对接阿里云磐久服务器,共享Ali Memory、AliSCM等池化内存资源,为Tiar数据库、Serverless高性能弹性扩缩容应用、PolarDB数据库高性能数据访问应用等系统级方案,提供崭新的技术支撑平台,让应用的面貌为之一新。
其中,需要稍加说明的是AliSCM是一款阿里自研的持久化内存(PMEM)部件,而AliMemory 3.0是阿里云自研的基于CXL技术的大容量内存,采用E3.S规格,也支持AIC插卡的类型,目前,这些产品基于PCIe5.0,可以提供32GT/S传输速度,和百ns水平的延迟。
在采访中,据陈曦介绍,浪潮信息从融合架构理念开始,就持续关注缓存一致性高速互联解决方案,探索研究基于GEN Z、Open CAPI、CCIX在内的缓存一致性总线技术方案。作为这些方案的集大成者,CXL已经成为市场事实上的标准。
浪潮信息持续开展CXL技术的研究和探索,在CXL1.0/1.1阶段,浪潮信息自研开发了基于CXL的FPGA加速器,实现CPU和加速器全局内存物理地址空间统一,完成内存扩展原型系统验证;随后浪潮信息开发实现了基于AISC的内存远端扩展原型系统,在百纳秒级访问延时的条件下,系统内存容量和带宽扩大一倍。同时内存扩展产品覆盖多种形态,包括业界最大单卡扩展规模的CXL内存扩展卡、支持DDR4/DDR5 DIMM扩展方案、自研E3.S CXL内存模组,满足客户不同场景应用需求。在CXL2.0阶段,浪潮信息持续进行CXL交换技术研究,提出大规模内存资源解耦重构技术方案,开发完成内存池化原型系统,以CXL交换单元为核心解耦重构服务器架构,软件定义实现内存资源灵活调用,实现多主机内存资源共享,单系统最大可扩展16TB池化内存资源,相比传统服务器内存容量和带宽均扩大2倍,满足AI计算、云场景、内存数据库多场景应用需求。
总而言之,CXL技术的影响将会是深远的,不能用单一的技术眼光来看待问题。如果说HBM + NVLink成就了大模型,没有这些技术突破,就没有生成式人工智能的突破,这是一种相辅相成的因果关系。那么CXL也是如此,所不同的是,CXL更加开放,更加标准化。虽然在带宽能力上,CXL目前还达不到HBM的高度,但是CXL在成本、容量上,也是HBM无法比拟的。
在大模型Scaling laws的作用下,这种新的技术突破会带来怎样的应用突破?
基于通用算力的AI应用新格局充满变数和期待!