英伟达:同时拥有NVLink\InfiniBand\Ethernet技术的“三头蛇怪”

Nvidia在人工智能领域的布局堪称全面,其以系统和网络、硬件和软件为三大支柱,构建起了深厚的技术护城河。Nvidia 于2020年完成对Mellanox收购,经过这次收购Nvidia获取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互联的能力。

面向GPU互联,自研NVLink互联和NVLink网络来实现GPU算力Scale Up扩展,相比于基于InfiniBand网络和基于Ethernet的RoCE网络形成差异化竞争力。NVLink自2014年推出以来,已经历了四个代际的演进,从最初的2014年20G NVLink 1.0,2018年25G NVLink2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0,预计到2024年,NVLink将进一步发展至200G NVLink 5.0。在应用场景上,NVLink 1.0至3.0主要针对PCIE板内和机框内互联的需求,通过SerDes提速在与PCIE互联的竞争中获取显著的带宽优势。

值得注意的是,除了NVLink1.0采用了20G特殊速率点以外,NVLink2.0~4.0皆采用了与Ethernet相同或者相近的频点,这样做的好处是可以复用成熟的Ethernet互联生态,也为未来实现连接盒子或机框组成超节点埋下伏笔。NVSwitch 1.0、2.0、3.0分别与NVLink2.0、3.0、4.0配合,形成了NVLink总线域网络的基础。NVLink4.0配合NVSwitch3.0组成了超节点网络的基础,这一变化的外部特征是NVSwitch脱离计算单板而单独成为网络设备,而NVLink则从板级互联技术升级成为设备间互联技术。

Nvidia  Scale Out又布局了两种类型网络,一种是传统InfiniBand和Ethernet网络,另一种是NVLink总线域网络。在传统网络中,Ethernet面向AIGC Cloud多AI训练和推理等云服务,而InfiniBand面向AI Factory,满足大模型训练和推理的应用需求。

在交换芯片布局方面,有基于开放Ethernet增强的Spectrum-X交换芯片和基于InfiniBand的封闭高性能的Quantum交换芯片。当前Ultra Ethernet Consortium (UEC) 正在尝试定义基于Ethernet的开放、互操作、高性能的全栈架构,以满足不断增长的AI和HPC网络需求 ,旨在与Nvidia的网络技术相抗衡。UEC的目标是构建一个类似于InfiniBand的开放协议生态,从技术层面可以理解为将Ethernet进行增强以达到InfiniBand网络的性能,或者说是实现一种InfiniBand化的Ethernet。

从某种意义上说UEC在重走InfiniBand道路。总线域网络NVLink的主要特征是要在超节点范围内实现内存语义级通信和总线域网络内部的内存共享,它本质上是一个Load-Store网络,是传统总线网络规模扩大以后的自然演进。从NVLink接口的演进历程可以看出,其1.0~3.0版本明显是对标PCIE的,而4.0版本实际上对标InfiniBand和Ethernet的应用场景,但其主要目标还是实现GPU的Scale Up扩展。

从原始需求的角度来看,NVLink网络在演进过程中需要引入传统网络的一些基本能力,例如编址寻址、路由、均衡、调度、拥塞控制、管理控制和测量等。同时,NVLink还需要保留总线网络基本特征,如低时延、高可靠性、内存统一编址共享以及内存语义通信。这些特征是当前InfiniBand或Ethernet网络所不具备的或者说欠缺的。与InfiniBand和Ethernet传统网络相比,NVLink总线域网络的功能定位和设计理念存在着本质上的区别。我们很难说NVLink网络和传统InfiniBand网络或者增强Ethernet网络最终会殊途同归。

Nvidia在AI集群竞争态势中展现出了全面布局,涵盖了计算(芯片、超级芯片)和网络(超节点、集群)领域。在计算芯片方面,Nvidia拥有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局;在超节点网络层面,Nvidia提供了NVLink和InfiniBand两种定制化网络选项;在集群网络方面,Nvidia有基于Ethernet的交换芯片和DPU芯片布局。

AMD紧随其后,更专注于CPU和GPU计算芯片,并采用基于先进封装的Chiplet芯粒技术。与Nvidia不同的是,AMD当前没有超级芯片的概念,而是采用了先进封装将CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link内存一致接口进行GPU、CPU、GPU和CPU间的互联,而GPU和CPU之间的互联仍然保留传统的PCIE连接方式。此外,AMD计划推出XSwitch交换芯片,下一代MI450加速器将利用新的互连结构,其目的显然是与Nvidia的NVSwitch竞争 。

BRCM则专注于网络领域,在超节点网络有对标InfiniBand的Jericho3-AI+Ramon的DDC方案;在集群网络领域有基于Ethernet的Tomahawk系列和Trident系列交换芯片。近期BRCM推出其新的软件可编程交换Trident 5-X12集成了NetGNT神经网络引擎实时识别网络流量信息,并调用拥塞控制技术来避免网络性能下降,提高网络效率和性能 。Cerebras/Telsa Dojo则“剑走偏锋”,走依赖“晶圆级先进封装”的深度定制硬件路线。