UnifabriX 公司由 Ronen Hyatt(首席执行官兼首席架构师)、Danny Volkind(首席技术官)和 Micha Rosling(首席商务官)于 2020 年创立,已获得 1100 万美元种子资金,用于开发基于 CXL 外部内存共享和池化技术的智能内存架构(Smart Memory Fabric)系统。其目的是通过使用基于 PCIe 布线标准的 CXL(Compute Express Link)方案连接外部内存池,来规避单个 CPU 和 GPU 服务器系统的内存容量限制。

UnifabriX 和 Panmnesia 是专注于 CXL 技术的最活跃的两家初创公司。到 2023 年 4 月,UnifabriX公司已在 2RU 机箱中开发出具有 32TB DDR5 DRAM 的智能内存节点,现在拥有基于 UnifabriX 软件和半导体 IP 的 MAX(Memory Accelerator)可组合内存设备。

UnifabriX 设备
MAX 提供了一个软件定义的内存架构池,具有自适应内存共享功能,并使用 CXL 和 UALink 布线及相关概念,其中一些在上面的幻灯片中有所提及。我们将研究系统级架构,然后尝试理清复杂的布线情况。
UnifabriX MAX: 系统级架构

Hyatt 谈到这张幻灯片时说:“在我们的 FabriX 内存操作系统之上,这是一个强化的 Linux……我们有一个流处理器,它可以在数据流入内存池时处理数据流和协议流。这是可编程硬件。你可以把它想象成在交换机和互联网交换机中发展起来的 P4 概念,在那里你可以即时解析数据,并在协议消息进出时对其进行编辑。
“所以你在这里看到前端端口,六个前端端口连接到主机。目前有 CXL 1.1 和 2.0。我们有板载和架构端口,我们将那里的链路加速到 112G,比 CXL 目前支持的速度快得多。在速度方面,这相当于 NVLink 4,我们正在进行 224G 的原型设计,这相当于 NVLink 5。是的,这就是带宽。当你连接多个 MAX 设备时,我们希望在后端、在架构上获得尽可能高的带宽。”
CXL 布线情况
PCIe、CXL 和 UALink 的情况很复杂。我们应该注意到,在 CXL 1 和 CXL 3.1 之间有五代 CXL 标准,现在还有第六代 CXL 3.2。CXL 3.2 增加了优化的内存设备监控和管理、扩展的安全性、性能监控,并且与之前的 CXL 规范向后兼容。
Hyatt 告诉我们:“PCIe 最初是为在平台内部使用而构建的,作为一种短距离互连,取代了 CPU 和外围设备之间的 PCI,因此它没有成熟的布线生态系统。PCIe 的大规模用例后来才出现,例如‘PCIe 架构’,用于汇集和分解 NVMe 存储、网卡和 GPU 等设备。
“那些用例不需要很大的带宽,因此使用窄的 x4 交换机端口和 x4 SFF – 8644(mini – SAS)布线就足够了。这里和这里有一些例子。
“CXL 在 PCIe Gen 5 之上的出现创造了对高性能 PCIe 布线的新需求,这种布线能够为内存事务提供更高的带宽。由于 PCIe 没有现成的此类解决方案,市场通过利用以太网领域的布线系统找到了临时解决方案,例如:
QSFP – DD MSA(x8)——QSFP 的一种更密集的形式,最初是为以太网、光纤通道、InfiniBand 和 SONET/SDH 而创建的。一些人(现在仍然有人)将其用于 PCIe x8 连接。见这里。
CDFP MSA(x16)——最初是为 400G 以太网(16 x 25G 通道)开发的,但后来被事实上认证可用于 PCIe Gen 5。见这里和这里。
“如今,PCIe 生态系统正在围绕 OSFP MSA 布线系统进行整合,OSFP(x8)及其更密集的变体 OSFP – XD(x16)都支持每条通道 224G PAM4 的最新信号速率(例如,8 x 200G = 1.6 Tbps 以太网),因此也与 PCIe Gen 5/CXL 1.1、2.0(32G NRZ)、PCIe Gen 6/CXL 3.x(64G PAM4)和 PCIe Gen 7/CXL 4.x(128G PAM4)兼容。也就是说,这个 OSFP 布线系统在 PCIe 领域至少在未来两代内都具有前瞻性。它也为在电气层面重用以太网 I/O 的 UALink 做好了准备。一根线缆统御一切。”
Nvidia 在这里展示了一条前进的道路,Hyatt 解释说:“将内存架构引入数据中心需要大量的市场教育。Nvidia 在推出带有 NVLink 内存架构的 DGX GH200 系统时介入并提供了帮助,创建了一个 144TB 的大型分散内存池。CXL 和 UALink 是 NVLink 的开放替代品。它们都支持原生的加载/存储内存语义。
“Nvidia 让世界认识到内存架构(通过 NVLink)优于网络(通过 InfiniBand)。我们倾向于同意这一点。”
他说:“UnifabriX 开发了一个符合 CXL 3.2 FM API 的架构管理器(FM),包括对 DCD(动态容量设备)的支持,即它能够使用标准的、开放的 CXL API 按需动态地配置和取消配置内存。我还没有看到其他的 DCD 架构管理器,所以这可能是你遇到的第一个真正能做到这一点的 FM。”
还有其他几点。Hyatt 说:“我们能够混合和匹配 CXL 端口和 UALink 端口,这意味着我们可以按需向 CPU 和 GPU 提供内存。UALink 连接器基于以太网 I/O,所以相同的连接器,即相同的 OSFP 和 OSFP XD,将用于 CXL 和 UALink。你只需改变端口的属性。”
工作芯片
该公司展示了其内存池能够根据需求动态改变大小,并分配给主机处理器,然后再返回内存池。UnifabriX 已经开始盈利,其产品已部署在数据分析、高性能计算、公共和私有云等领域。
Hyatt 说:“我们有一些超大规模客户,[在这些客户那里]系统正在 Emerald Rapids 平台上运行实际工作负载,并且很快将转向使用 AMD 的 Granite Rapids 和 Turin 系统。
“我们在市场的不同细分领域有相当多的新客户,不仅仅是超大规模客户和国家实验室。我们有药物研发公司、DNA 测序公司。事实证明,在高性能计算的大范畴下有很多用例,人们在这些用例中需要大量内存。有时他们需要带宽,有时他们需要容量。但是能够按需增长内存并动态地做到这一点带来了很大的价值,不仅仅是在总体拥有成本方面。”
他解释说:“你看云,公共云,国家实验室。我们从国家实验室和动画工作室开始。那里有很多数字资产,你需要进行渲染和处理,如今他们都在使用快速存储系统,但对于他们的需求来说还不够快。所以在中间有一个内存池有助于加速整个过程。”
内存内处理
Hyatt 谈到 MAX 能够进行一些处理:“它具有处理能力,我们发现这对于高性能计算非常有用。所以我们有内存内处理或近内存处理能力。这对于稀疏内存模型非常有效,例如在高性能计算中,你有非常大的模型,可能达到 PB 级,你需要抽象内存地址空间。所以你实际上在外部暴露了一个巨大的地址空间。
“但在内部你进行映射。这是我们在这里进行的内存处理的一部分。这是一个例子。我们有一个 APU,即应用处理单元,向客户开放,客户可以在容器上运行他们自己的代码。所以如果他们想在内存上做一些事情,比如检查恶意代码,检查内存中的一些异常模式,他们可以在内部运行这些操作。我们提供了这种能力。”
UnifabriX 如何进入市场?Hyatt 说:“目前,我们直接与终端客户合作。我们这样做的原因是因为这是产品定义的一部分,比如获取客户需求的反馈。所以你不希望有中间渠道,因为那样你会失去很多反馈。
“但我们已经与合作伙伴合作。其中一些是平台原始设备制造商,他们希望将内存池作为其产品组合的一部分。所以想想所有拥有存储系统的大公司,把内存池看作是一个存储服务器,但它是用于内存的。所以与存储相关的大多数模式和语义将被复制到内存领域,我们正在与他们合作。
“除此之外,我们还有几个渠道,有些是专门针对高性能计算的。有一些原始设备制造商为高性能计算市场制造独特的服务器和设备。高性能计算对 CXL 提供的内存带宽非常感兴趣。有一些系统集成商建造整个机架,并将 GPU 和大量计算能力一起发货。他们实际上将 GPU、服务器、存储和内存组装在一起,并作为一个机架发货。”
UnifabriX 计划在 2025 年下半年进行新一轮融资。
在制造工艺方面,Hyatt 说:“目前,我们的芯片是 7 纳米工艺,我们计划在 2026 年、2027 年初采用台积电的 5 纳米工艺。”正如 Hyatt 指出的,这与 PCIe Gen 6 相契合:“CXL 本身正从 PCIe Gen 5 向 Gen 6 发展,所以我们必须升级工艺。Gen 6 涉及混合信号……需要 5 纳米工艺才能在功耗方面高效。”
我们将跟进一篇关于 UnifabriX 的 MAX 设备的文章。
(脚注)
QSFP——四通道小型可插拔标准,指用于光纤或铜缆布线的收发器,速度是其对应的 SFP(小型可插拔)标准的四倍。QSFP28 变体于 2014 年发布,允许的速度高达 100Gbps,而 QSFP56 变体于 2019 年标准化,将最高速度翻倍至 200Gbps。一个更大的变体八通道小型可插拔(OSFP)在 2022 年有产品发布,能够在网络设备之间实现 800Gbps 的链路。
OSFP MSA——八通道小型可插拔(OSFP)多源协议(MSA)。OSFP(x8)及其更密集的变体 OSFP – XD(x16)都支持每条通道 224G PAM4 的最新信号速率(例如 8 x 200G = 1.6 Tbps 以太网)。它们与 PCIe Gen5 / CXL 1.1、2.0(32G NRZ)、PCIe Gen6 / CXL 3.x(64G PAM4)和 PCIe Gen7 / CXL 4.x(128G PAM4)兼容。这个 OSFP 布线系统在 PCIe 领域至少在未来两代内都具有前瞻性。它也为在电气层面重用以太网 I/O 的 UALink 做好了准备。
CDFP——CDFP 是 400(罗马数字 CD)形式可插拔的缩写,旨在提供低成本、高密度的 400 千兆以太网连接。