动物凶猛,NVIDIA 新一代InfiniBand让人印象深刻

王朔有一部小说《动物凶猛》,写的是幼时军区大院儿的孩子们,“不管天不管地” “请勿靠近”的“生不愣子们”“不吝秧子的主儿”,“一切都无须争取,我只要等待,十八岁时自然会轮到我”,这是主人公的表述,也是那个时代孩子的心声。

NVIDIA最新发布的NVIDIA Quantum-2 – 新一代InfiniBand网络平台同样拥有世道轮回、顺利称霸的潜质,因为其性能表现同样的凶猛,这是我对Quantum-2的第一印象。

让我们看看NVIDIA Quantum-2的性能表现:

NVIDIA Quantum-2 平台属于400Gbps InfiniBand网络平台,由NVIDIA Quantum-2交换机、ConnectX-7网卡和BlueField-3数据处理器DPU(数据处理器)组成,也包括所有支持这种新架构的软件。

NVIDIA Quantum-2相关产品全部采用7纳米制程工艺制造,其中Quantum-2交换机包含了570亿个晶体管,略多于含 540亿个晶体管的NVIDIA A100 GPU,它具有64个400Gbps端口或128个200Gbps端口,并将提供不同端口数的交换机系统,最多达2048个400Gbps端口或4096个200Gbps端口——交换能力上,超出上一代Quantum-1约 5倍。

NVIDIA ConnectX-7网卡包含80亿个晶体管,可以支持RDMA、GPUDirectStorage、GPUDirect RDMA和网络计算,性能相比NVIDIA ConnectX-6实现了翻番, ConnectX-7样片将于明年1月问世。BlueField-3 InfiniBand包含220亿个晶体管,提供16个64位的Arm CPU,以卸载和隔离各种数据中心基础设施服务。BlueField-3样片将于明年5月问世。

如此彪悍的性能可以派何用场呢?

此前我们介绍过:海量数据时代冯・诺依曼架构CPU的局限,“数据在哪里,计算就在那里;当数据在GPU上,计算就在GPU上;当数据在CPU上,计算就在CPU上;当数据在网络中传输的时候,计算就在网络中。”这是数据中心时代的主要诉求。

但是无论架构如何调整,强大网络连接能力都有助于减轻架构的压力。相比于10G/40G以太网络,400Gbps/ 200Gbps低延迟InfiniBand都有碾压的实力。高达2048个400Gbps端口,堪称恐怖的存在。

对于全球超算中心和云服务提供商而言,NVIDIA Quantum-2 平台是他们的福音,这让他们有能力将强大的算力面向企业级用户开放,提供多租户服务的性能保障。

NVIDIA网络高级副总裁Gilad Shainer 表示,“如今,超级计算中心和公有云的诉求正在走向融合——它们需要为新一代高性能计算(HPC)、AI和数据分析的应用提供尽可能高的性能,同时还应安全隔离应用,并响应用户对流量的不同需求。凭借NVIDIA Quantum-2 InfiniBand平台,现代数据中心已经可以将这一远景变为现实。”

凭借每端口400 Gbps的高吞吐量,NVIDIA Quantum-2 InfiniBand将网速提高了一倍,网络端口数量增加了三倍。它在性能提升3倍的同时,还将对数据中心网络所需的交换机数量减少了6倍,于此同时,数据中心的能耗和空间各减少了7%。

NVIDIA Quantum-2平台实现了多租户之间的性能隔离,这使得一个租户的行为不会干扰到其它租户,同时通过利用先进的基于遥测且支持云原生的拥塞控制机制,确保了可靠的数据吞吐量,并且不受用户或应用需求高峰的影响。 

NVIDIA Quantum-2 SHARPv3网络计算技术可为AI应用提供超出上一代产品32倍的加速引擎能力,借助NVIDIA UFMCyber-AI平台,将为数据中心提供先进的InfiniBand网络管理功能,包括预测性维护等。

NVIDIA Quantum-2平台中集成了纳秒级精度的时钟系统可以同步分布式应用,如在数据库处理中,有助于减少等待及空闲时间。这一新功能,其使得云数据中心可成为电信网络的一部分,可以托管软件定义的5G无线服务。