NVIDIA非常成功,除了羡慕嫉妒恨,更多的人希望借鉴NVIDIA的成功经验,从市场上分一杯羹。在我看来,最简单的方法就是抄NVIDIA作业,幸运地是,NVIDIA愿意和我们分享它的做法。
如今,生成式AI已经引起了全球的惊叹和热议,自从去年底OpenAI推出了能够与人类进行自然对话的ChatGPT聊天机器人后,各大科技公司和开发者纷纷尝试将生成式AI应用到各种场景中,NVIDIA也看好这个市场,并分享它们的方案。
生成式AI场景意味着动辄成千、甚至上万GPU的应用。
以Israel-1生成式 AI超级计算机为例,这是NVIDA在以色列投建的项目,它使用了256 台配有NVIDIA HGX 平台Dell 服务器,GPU规模为2048个。
对于这样一个方案设计,如何才能够充分发挥GPU等计算资源的效率呢?
如果你了解HGX 平台,了解Grace Hopper超级芯片,就是会知道:生成式AI场景中,NVLlink最多连接256个节点的GPU,更多的节点还是需要借助Spectrum-X,或者InfiniBand交换机进行互连,借助BlueField-3 DPU的RDMA技术提高效率。
这里的NVIDIA Spectrum-X 网络平台集 NVIDIA Spectrum-4、BlueField-3 DPU、LinkX线缆和加速软件于一身。无论GPU之间、CPU之间,还是CPU-GPU之间,设计重点是尽可能消除数据交换中的瓶颈,也就是说,数据交换的带宽、效率才是解决问题的关键。
在注重算力的同时,注意发挥Spectrum-X网络平台的效率。它将 NVIDIA Spectrum-4 以太网交换机与 NVIDIA BlueField-3 DPU 紧密结合,取得了 1.7 倍的整体 AI 性能和能效提升,可在多租户环境中提供一致、可预测的性能,Spectrum-X 还提供 NVIDIA 加速软件和软件开发套件(SDK)。
利用Spectrum-4交换机的实现数据逐包动态路由、可编程拥塞控制,以及BlueField-3 DPU数据乱序重组的能力,Spectrum-X平台帮助用户实现了端到端的无损高性能RoCE,以及多租户运行不同工作负载时的性能隔离。
Israel-1生成式 AI超级计算机方案共使用了2560 个 BlueField-3 DPU、80 多台 Spectrum-4 以太网交换机 , 是全球性能排名靠前的 AI 超级计算机之一,其AI 训练性能达到了8 EFlop/s (8000PFlop/s)峰值。
驱动 Spectrum-X 的加速软件包括 Cumulus Linux、SONiC 、NetQ 等,共同助力该网络平台实现极致性能。另外,Spectrum-X 还包括 BlueField DPU 的核心软件—— NVIDIA DOCA 软件框架。对于这些SDK的功能,在此不做更加详细介绍。
这就是NVIDIA提交的作业和答案。
对于生成式AI场景,你可以直接抄NVIDIA的作业,NVIDIA对此也抱有积极的态度,欢迎来抄;如果羞于抄作业,NVIDIA的作业也是极具参考价值,希望你能够领悟其中的精华。