人工智能加速CXL时代

CXL互连的出现早于最近的AI热潮,但AI可能会加速它在数据中心的采用。

CXL于2019年推出,已经有了三次迭代。CXL被业界广泛接受,它是处理器、内存扩展和加速器的缓存一致互连,支持资源共享——尤其是内存。

与更成熟的NVMe协议一样,CXL使用PCIe作为其基础,具有灵活的处理器端口,可以自动协商到标准PCIe事务协议或替代CXL事务协议。

CXL有三个子协议:CXL.io;这是执行I/O指令所必需的,CXL.cache和CXL.memory。在CXL 1.0中,可以直接附加内存,而2.0添加了将内存附加到处理器池的功能,从而允许使用存储类内存或持久内存,或者具有不同性能和成本结构的内存层。

CXL 3.0通过添加高级交换和结构功能、高效的点对点通信以及跨多个计算域的细粒度资源共享,增强了更多分解的能力。最近发布的3.2对CXL内存设备监视和管理进行了额外的优化,并使用可信安全协议(TSP)扩展了安全性,包括扩展了IDE保护。

CXL从1.0迅速跃升到3.2的原因之一是,从一开始该协议就有了一堆为互连设想的功能,但是那些指导规范的人选择迭代地分层功能,因为他们知道设备制造商和系统构建者需要时间来有效地采用该协议。

Objective Analysis的首席分析师Jim Handy说,构建CXL规范的方法反映了这样一个现实,即很难让每个涉众立即达成一致。“他们所做的就是小步前进。”

他说,CXL的最终目标始终是拥有多层交换机,但CXL 1.0没有,CXL 2.0只有一个。直到3.0版本,这一愿景才成为现实,而这正是许多人一直在等待的。“CXL的一个重要应用被称为内存池,如果没有一个交换机,你就不能用它来做内存池,所以你至少需要CXL 2.0来做这件事。”

CXL缺少软件

Handy表示,因为CXL依赖于PCIe,所以从硬件的角度来看,实现CXL并不那么复杂,因为有处理器支持它,而且英特尔和AMD等大公司都在提供这些处理器。CXL起飞所需的缺失部分是软件。他说:“实际上没有任何软件支持它,所以在最初的几年里,这将是一个大型的超大规模数据中心。”

Handy补充说,更广泛的采用可能需要长达五年的时间,CXL的内存池功能是最直接的兴趣,因为它可以帮助访问未充分利用的“搁浅”内存。“内存池的整体理念是,数据中心可以使用更少的内存。”

Handy说,难题在于这种能力是否会对内存销售构成威胁,还是会促使人们购买大容量内存。还有一个问题是它如何适应内存/存储层次结构,因为在一个层上使用更慢、更便宜的内存可能比在另一个层上使用更昂贵、更快速的内存更容易。

Handy表示,更复杂的是CXL确实增加了延迟,这会降低内存(如DRAM)的速度,因为在内存和处理器之间需要一个CXL控制器,这也增加了成本。

他说,从长远来看,软件将解决一些延迟问题,就像软件解决SSD的性能问题一样,这样它们就不会受到硬盘模式的阻碍。

CXL标准可能具有压倒性优势

尽管CXL是一个开放标准,但实现互操作性可能具有挑战性,因为规范是如此广泛,包括内存池和共享、对称一致性、多层交换等功能。

Synopsys为CXL规范提供控制器、PHY、安全模块和验证IP,旨在支持所有CXL设备,包括加速器、内存扩展器和基于现有PCIe IP的智能I/O产品。由于Synopsys提供IP的性质,它必须始终领先于测试和验证,以确保互操作性。

与Teledyne LeCroy一起,Synopsys在SC24上展示了世界上第一个CXL 3.1多供应商互操作性演示,展示了Teledyne LeCroy Summit M616协议练习器如何模拟连接到Synopsys CXL PHY和控制器的CXL主机,同时在CXL 3.1上进行通信,而无需中间层的帮助。

Synopsys解决方案组高级员工经理Gary Ruggles表示,管理互连协议的CXL联盟正在遵循PCIe的道路,举办合规研讨会,但还没有完成3.0,而管理PCIe的小组还没有完成6.0。

他说,CXL 2.0专注于增加交换功能,而CXL 3.0支持fabric,这意味着连接到fabric上的设备的每个内存都可以共享。“理论上,你可以接近100%的内存利用率,而不是让每个设备都有自己的内存。”

Synopsys解决方案组产品经理Ron Lowman补充说,利用联网的额外资源的能力支持分布式计算的概念,CXL支持内存共享功能。

Lowman说,从采用的角度来看,存储供应商一直在开发基于PCIe 5.0的解决方案,该解决方案与CXL 2.0保持一致,但Synopsys的客户选择了CXL 3.0,因为CXL 3.0已经具备了分布式计算的能力。

他说,CXL提供了连接到网络的能力,可以利用更多的内存,获得更多的带宽和资源——不仅仅是内存,还有附近节点的计算资源。

Lowman补充说,AI工作负载正在推动CXL的采用。“AI工作负载的独特之处在于它们总是受到内存限制。当你在单个单片SoC上耗尽内存时,你就会遇到这些瓶颈。”

2025年,AI将推动CXL的采用

CXL最初的兴奋在某种程度上被AI的出现所掩盖。在接受采访时,Astera Labs首席商务官Thad Omura表示,业界对CXL的兴趣极大,CXL将在2025年真正开始增长。“你将看到大客户部署这项技术,在资格认证和为大规模生产和部署技术做好准备方面,目前仍在进行大量工作。”

Omura表示,作为一家控制器公司,Astera认为CXL的性能提升与所选择的控制器密切相关,因为它会影响CXL内存整个平台的可靠性、可用性和可服务性。他说:“Astera关注的重点是确保我们添加到系统中的CXL附加存储器的可靠性。”

他说,控制器技术将严重影响新的CXL配置,包括可以增加多少内存密度,并产生最佳的总拥有成本。Astera的Leo CXL智能内存控制器支持内存扩展、共享和池化。

Omura表示,最初的应用将涉及内存扩展,并且CXL开始对AI工作负载产生积极影响,例如深度学习推荐模型的推理。

原文链接:

转自:帅呆 SSDFans 2025年03月31日 08:30上海

英文原文:https://www.fierceelectronics.com/ai/cxl-gains-big-mo-memory-chokes-ai-workloads