关注CXL：UnifabriX使CXL外部存储器成为主流-DOIT-数据产业媒体与服务平台

UnifabriX 公司由 Ronen Hyatt（首席执行官兼首席架构师）、Danny Volkind（首席技术官）和 Micha Rosling（首席商务官）于 2020 年创立，已获得 1100 万美元种子资金，用于开发基于 CXL 外部内存共享和池化技术的智能内存架构（Smart Memory Fabric）系统。其目的是通过使用基于 PCIe 布线标准的 CXL（Compute Express Link）方案连接外部内存池，来规避单个 CPU 和 GPU 服务器系统的内存容量限制。

UnifabriX 和 Panmnesia 是专注于 CXL 技术的最活跃的两家初创公司。到 2023 年 4 月，UnifabriX公司已在 2RU 机箱中开发出具有 32TB DDR5 DRAM 的智能内存节点，现在拥有基于 UnifabriX 软件和半导体 IP 的 MAX（Memory Accelerator）可组合内存设备。

UnifabriX 设备

MAX 提供了一个软件定义的内存架构池，具有自适应内存共享功能，并使用 CXL 和 UALink 布线及相关概念，其中一些在上面的幻灯片中有所提及。我们将研究系统级架构，然后尝试理清复杂的布线情况。

UnifabriX MAX: 系统级架构

Hyatt 谈到这张幻灯片时说：“在我们的 FabriX 内存操作系统之上，这是一个强化的 Linux……我们有一个流处理器，它可以在数据流入内存池时处理数据流和协议流。这是可编程硬件。你可以把它想象成在交换机和互联网交换机中发展起来的 P4 概念，在那里你可以即时解析数据，并在协议消息进出时对其进行编辑。

“所以你在这里看到前端端口，六个前端端口连接到主机。目前有 CXL 1.1 和 2.0。我们有板载和架构端口，我们将那里的链路加速到 112G，比 CXL 目前支持的速度快得多。在速度方面，这相当于 NVLink 4，我们正在进行 224G 的原型设计，这相当于 NVLink 5。是的，这就是带宽。当你连接多个 MAX 设备时，我们希望在后端、在架构上获得尽可能高的带宽。”

CXL 布线情况

PCIe、CXL 和 UALink 的情况很复杂。我们应该注意到，在 CXL 1 和 CXL 3.1 之间有五代 CXL 标准，现在还有第六代 CXL 3.2。CXL 3.2 增加了优化的内存设备监控和管理、扩展的安全性、性能监控，并且与之前的 CXL 规范向后兼容。

Hyatt 告诉我们：“PCIe 最初是为在平台内部使用而构建的，作为一种短距离互连，取代了 CPU 和外围设备之间的 PCI，因此它没有成熟的布线生态系统。PCIe 的大规模用例后来才出现，例如‘PCIe 架构’，用于汇集和分解 NVMe 存储、网卡和 GPU 等设备。

“那些用例不需要很大的带宽，因此使用窄的 x4 交换机端口和 x4 SFF – 8644（mini – SAS）布线就足够了。这里和这里有一些例子。

“CXL 在 PCIe Gen 5 之上的出现创造了对高性能 PCIe 布线的新需求，这种布线能够为内存事务提供更高的带宽。由于 PCIe 没有现成的此类解决方案，市场通过利用以太网领域的布线系统找到了临时解决方案，例如：

QSFP – DD MSA（x8）——QSFP 的一种更密集的形式，最初是为以太网、光纤通道、InfiniBand 和 SONET/SDH 而创建的。一些人（现在仍然有人）将其用于 PCIe x8 连接。见这里。

CDFP MSA（x16）——最初是为 400G 以太网（16 x 25G 通道）开发的，但后来被事实上认证可用于 PCIe Gen 5。见这里和这里。

“如今，PCIe 生态系统正在围绕 OSFP MSA 布线系统进行整合，OSFP（x8）及其更密集的变体 OSFP – XD（x16）都支持每条通道 224G PAM4 的最新信号速率（例如，8 x 200G = 1.6 Tbps 以太网），因此也与 PCIe Gen 5/CXL 1.1、2.0（32G NRZ）、PCIe Gen 6/CXL 3.x（64G PAM4）和 PCIe Gen 7/CXL 4.x（128G PAM4）兼容。也就是说，这个 OSFP 布线系统在 PCIe 领域至少在未来两代内都具有前瞻性。它也为在电气层面重用以太网 I/O 的 UALink 做好了准备。一根线缆统御一切。”

Nvidia 在这里展示了一条前进的道路，Hyatt 解释说：“将内存架构引入数据中心需要大量的市场教育。Nvidia 在推出带有 NVLink 内存架构的 DGX GH200 系统时介入并提供了帮助，创建了一个 144TB 的大型分散内存池。CXL 和 UALink 是 NVLink 的开放替代品。它们都支持原生的加载/存储内存语义。

“Nvidia 让世界认识到内存架构（通过 NVLink）优于网络（通过 InfiniBand）。我们倾向于同意这一点。”

他说：“UnifabriX 开发了一个符合 CXL 3.2 FM API 的架构管理器（FM），包括对 DCD（动态容量设备）的支持，即它能够使用标准的、开放的 CXL API 按需动态地配置和取消配置内存。我还没有看到其他的 DCD 架构管理器，所以这可能是你遇到的第一个真正能做到这一点的 FM。”

还有其他几点。Hyatt 说：“我们能够混合和匹配 CXL 端口和 UALink 端口，这意味着我们可以按需向 CPU 和 GPU 提供内存。UALink 连接器基于以太网 I/O，所以相同的连接器，即相同的 OSFP 和 OSFP XD，将用于 CXL 和 UALink。你只需改变端口的属性。”

工作芯片

该公司展示了其内存池能够根据需求动态改变大小，并分配给主机处理器，然后再返回内存池。UnifabriX 已经开始盈利，其产品已部署在数据分析、高性能计算、公共和私有云等领域。

Hyatt 说：“我们有一些超大规模客户，[在这些客户那里]系统正在 Emerald Rapids 平台上运行实际工作负载，并且很快将转向使用 AMD 的 Granite Rapids 和 Turin 系统。

“我们在市场的不同细分领域有相当多的新客户，不仅仅是超大规模客户和国家实验室。我们有药物研发公司、DNA 测序公司。事实证明，在高性能计算的大范畴下有很多用例，人们在这些用例中需要大量内存。有时他们需要带宽，有时他们需要容量。但是能够按需增长内存并动态地做到这一点带来了很大的价值，不仅仅是在总体拥有成本方面。”

他解释说：“你看云，公共云，国家实验室。我们从国家实验室和动画工作室开始。那里有很多数字资产，你需要进行渲染和处理，如今他们都在使用快速存储系统，但对于他们的需求来说还不够快。所以在中间有一个内存池有助于加速整个过程。”

内存内处理

Hyatt 谈到 MAX 能够进行一些处理：“它具有处理能力，我们发现这对于高性能计算非常有用。所以我们有内存内处理或近内存处理能力。这对于稀疏内存模型非常有效，例如在高性能计算中，你有非常大的模型，可能达到 PB 级，你需要抽象内存地址空间。所以你实际上在外部暴露了一个巨大的地址空间。

“但在内部你进行映射。这是我们在这里进行的内存处理的一部分。这是一个例子。我们有一个 APU，即应用处理单元，向客户开放，客户可以在容器上运行他们自己的代码。所以如果他们想在内存上做一些事情，比如检查恶意代码，检查内存中的一些异常模式，他们可以在内部运行这些操作。我们提供了这种能力。”

UnifabriX 如何进入市场？Hyatt 说：“目前，我们直接与终端客户合作。我们这样做的原因是因为这是产品定义的一部分，比如获取客户需求的反馈。所以你不希望有中间渠道，因为那样你会失去很多反馈。

“但我们已经与合作伙伴合作。其中一些是平台原始设备制造商，他们希望将内存池作为其产品组合的一部分。所以想想所有拥有存储系统的大公司，把内存池看作是一个存储服务器，但它是用于内存的。所以与存储相关的大多数模式和语义将被复制到内存领域，我们正在与他们合作。

“除此之外，我们还有几个渠道，有些是专门针对高性能计算的。有一些原始设备制造商为高性能计算市场制造独特的服务器和设备。高性能计算对 CXL 提供的内存带宽非常感兴趣。有一些系统集成商建造整个机架，并将 GPU 和大量计算能力一起发货。他们实际上将 GPU、服务器、存储和内存组装在一起，并作为一个机架发货。”

UnifabriX 计划在 2025 年下半年进行新一轮融资。

在制造工艺方面，Hyatt 说：“目前，我们的芯片是 7 纳米工艺，我们计划在 2026 年、2027 年初采用台积电的 5 纳米工艺。”正如 Hyatt 指出的，这与 PCIe Gen 6 相契合：“CXL 本身正从 PCIe Gen 5 向 Gen 6 发展，所以我们必须升级工艺。Gen 6 涉及混合信号……需要 5 纳米工艺才能在功耗方面高效。”

我们将跟进一篇关于 UnifabriX 的 MAX 设备的文章。

（脚注）

QSFP——四通道小型可插拔标准，指用于光纤或铜缆布线的收发器，速度是其对应的 SFP（小型可插拔）标准的四倍。QSFP28 变体于 2014 年发布，允许的速度高达 100Gbps，而 QSFP56 变体于 2019 年标准化，将最高速度翻倍至 200Gbps。一个更大的变体八通道小型可插拔（OSFP）在 2022 年有产品发布，能够在网络设备之间实现 800Gbps 的链路。

OSFP MSA——八通道小型可插拔（OSFP）多源协议（MSA）。OSFP（x8）及其更密集的变体 OSFP – XD（x16）都支持每条通道 224G PAM4 的最新信号速率（例如 8 x 200G = 1.6 Tbps 以太网）。它们与 PCIe Gen5 / CXL 1.1、2.0（32G NRZ）、PCIe Gen6 / CXL 3.x（64G PAM4）和 PCIe Gen7 / CXL 4.x（128G PAM4）兼容。这个 OSFP 布线系统在 PCIe 领域至少在未来两代内都具有前瞻性。它也为在电气层面重用以太网 I/O 的 UALink 做好了准备。

CDFP——CDFP 是 400（罗马数字 CD）形式可插拔的缩写，旨在提供低成本、高密度的 400 千兆以太网连接。

关注CXL：UnifabriX使CXL外部存储器成为主流

nina

相关推荐

近期文章

热门标签