众多厂商扎堆采用NVIDIA Spectrum-X 以太网络平台,继戴尔科技、慧与、联想和超微等之后,又有多家 NVIDIA 合作伙伴也发布了基于 Spectrum 的产品,其中包括永擎电子(ASRock Rack)、华硕(ASUS)、技嘉科技(GIGABYTE)、鸿佰科技(Ingrasys)、英业达(Inventec)、和硕(Pegatron)、云达科技(QCT)、纬创(Wistron)和纬颖科技(Wiwynn)等,都将 Spectrum-X 以太网络整合到他们的产品方案; CoreWeave、GMO Internet Group、Lambda、Scaleway、STPX Global 和 Yotta 等一众 AI 云服务提供商也纷纷宣布采用NVIDIA Spectrum-X。
NVIDIA 创始人兼首席执行官黄仁勋在今天的 COMPUTEX 主题演讲中宣布,NVIDIA 计划每年都推出新的 Spectrum-X 产品,为客户提供更高的带宽、更多的端口、更加强大的软件功能集与可编程能力,不断提高领先的 AI 以太网网络性能。
生成式AI的时代,为什么Spectrum-X 以太网络平台会脱颖而出?从技术的角度看,除了GPU、CUDA平台之外,生成式AI也是NVlink和HBM的成功,与通用PCIe方案相比,NVlink更加具有效率。但是当我们的视角放大到生成式AI的场景,NVlink最多连接256个GPU的限制就暴露了出来,更多的节点,还是需要借助Spectrum,或者InfiniBand网络进行互连,借助BlueField-3 SuperNIC和DPU的RDMA技术提高效率。
在这个方案中,Grace CPU和Hopper GPU之间透过NVlink C2C进行连接; 但是超过256个GPU,更多GPU之间的连接,还是需要通过ConnectX-7 IB网卡或者BlueField-3 SuperNIC(可以视为智能网卡)进行连接,图中采用的是InfiniBand网络进行连接,如果你更加青睐以太网连接,也可以选用全新NVIDIA Spectrum-X 网络平台,该平台包括 NVIDIA Spectrum-4交换机、BlueField-3 SuperNIC、以及加速软件,其中 Spectrum-4与 BlueField-3 SuperNIC 紧密结合可以将AI 性能和能效提升 1.7 倍。
类似于CUDA对于GPU AI应用的重要性。与Spectrum-X 平台配套的加速软件和软件开发套件(SDK),以及BlueField SuperNIC 配套的 NVIDIA DOCA 软件框架也发挥了非常重要的作用。其中,利用Spectrum-4交换机逐包数据分发、可编程拥塞控制,以及BlueField-3 SuperNIC的数据乱序重组的能力,Spectrum-X网络平台帮助用户实现了端到端无损RoCE路由,以及多租户不同工作负载的性能隔离。驱动 Spectrum-X 的加速软件还包括 Cumulus Linux、纯 SONiC 、NetQ 等,共同助力该网络平台实现极致性能。
对于生成式AI应用场景而言,这些能力至关重要,是影响效率的关键。
NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI 等开创性技术的飞速发展,使每家企业都必须把网络创新放在第一位,从而获得竞争优势。NVIDIA Spectrum-X 是对以太网络的一次革命,让企业能够充分利用其 AI 基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”