NVIDIA DGX A100助DGX SuperPOD达到性能新峰

image003.jpg

钢铁一直以来都是工业化的象征。而在AI时代,NVIDIA DGX A100则将成为现代数据中心的基石。

如今,众多企业所面临的最大的挑战和机遇,其根源都在于数据。DGX A100作为当今全球最先进的AI系统,能够帮助企业机构以前所未有的速度解决复杂问题,同时为跨分析、训练和推理的AI计算力交付带来强大的弹性和灵活性。

去年,NVIDIA基于多台DGX系统组合构建了DGX SuperPOD,该超计算机以远低于一般超级计算机的成本和能耗跻身性能世界前20之列。

如今,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。

SuperPOD基于NVIDIA DGX A100系统和NVIDIA Mellanox网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

重新定义基础设施扩展

无论你是需要一个超级计算集群解决复杂繁重的问题,还是需要一个性能卓越的数据中心来实现研究人员和开发者们的资源访问民主化,AI都是提供重要保障的基础设施。

在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。

NVIDIA Mellanox技术让我们能够重新定义数据中心,其所拥有的架构能以最快的速度并行处理解决那些最复杂的问题。DGX A100配备具有200Gbps HDR InfiniBand的全新Mellanox ConnectX-6 VPI网络适配器,每个系统有多达9个接口。我们可以凭借Mellanox的交换功能更轻松地将多个系统互连在一起,以至最终达到SuperPOD的规模。

借助于DGX SuperPOD和DGX A100,NVIDIA所提出的AI网络架构帮助用户实现了“按自身业务增长需求购买”模式,这使得业务增长变得更轻松,同时也最大程度地减少了其对运营的影响。

而且,该网络架构极具灵活性与可扩展性。NVIDIA已将SuperPOD模块化,成为每组配置有20台DGX A100系统的可扩展组。每个扩展组均由使用Mellanox HDR InfiniBand的二层胖树(two-tiered fat-tree)交换网络拓扑提供支持,提供完整的对分宽带,且没有过载(oversubscription)。在添加第三个交换层后,用户可以在NVIDIA的扩展参考设计中使用DragonFly+或胖树拓扑将其扩展至数千个节点。

凭借这种新的拓展单位,企业机构的增长速度将会更加趋向于线性增长,并且每次增加这一个这种20系统模块时所产生的支出也将变得更少。

通过SuperPOD扩展DGX SATURNV

从研发和自动驾驶汽车系统开发到游戏和机器人技术,DGX SATURNV为NVIDIA最重要的工作提供了支持。而且SATURNV并非一个一成不变的系统,它会随着业务需求的增加而不断扩展。因此它也成为了NVIDIA全新SuperPOD设计的理想试验场。

在发布DGX A100之前,NVIDIA的工程师们部署了最新SuperPOD,实现了700 petaflops的AI性能。 此扩展包含:

·         140台DGX A100系统

·         1,120个NVIDIA A100 GPU

·         170个Mellanox Quantum 200G InfiniBand交换机

·         15千米光缆

·         4PB高性能存储

此次扩展,在存储基础设施方面,NVIDIA与DDN展开了合作。作为NVIDIA DGX POD的合作伙伴之一,DDN正在帮助NVIDIA实现AI基础设施产品所需的性能和规模。SuperPOD让NVIDIA能够使用DDN技术,从而帮助其最先进的系统处理那些交给它的高难度任务。

最佳扩展架构

并非所有AI项目都需要DGX SuperPOD。 但每个希望在其业务中应用AI技术的企业机构都可以运用DGX A100或DGX POD的性能、敏捷性和可扩展性。

具有前瞻性的企业机构关注于保持客户的忠诚度、降低成本并拉开与竞争对手的距离。而AI在所有这些方面有着独特的优势。

但如今AI技术创新发展迅速,而且模型和数据集的规模也都在呈指数级增长。企业需要合适的架构,使其在现在和将来都能够应对最大的AI挑战,而不至于在中途“夭折”。