NVIDIA Blackwell 平台发布,赋能万亿参数规模AI模型

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 于今日宣布推出 NVIDIA Blackwell 平台以赋能计算新时代。该平台可使世界各地的机构都能够在万亿参数的大语言模型(LLM)上构建和运行实时生成式 AI,其成本和能耗较上一代产品降低多达 25 倍。

Blackwell GPU 架构搭载六项变革性的加速计算技术,这些技术将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式 AI 等领域实现突破,这些都是 NVIDIA 眼中的新兴行业机遇。

NVIDIA 创始人兼首席执行官黄仁勋表示: “三十年来,我们一直深耕加速计算领域,力求实现像深度学习和 AI 这样的变革性突破。生成式 AI 是我们这个时代的决定性技术,Blackwell GPU 是推动新一轮工业革命的引擎。通过与全球最具活力的企业合作,我们将实现 AI 赋能各行各业的承诺。”

许多企业都在计划采用 Blackwell,其中包括亚马逊云科技、戴尔科技、谷歌、Meta、微软、OpenAI、Oracle、特斯拉和 xAI。

新架构以纪念 David Harold Blackwell 命名,他不仅是一位专门研究博弈论和统计学的数学家,也是第一位入选美国国家科学院的黑人学者。这一新架构是继两年前推出的 NVIDIA Hopper™ 架构以来的全新架构。

Blackwell 的多项创新技术为加速计算和生成式 AI 提供助力

凭借六项变革性的技术,Blackwell 能够在拥有高达 10 万亿参数的模型上实现 AI 训练和实时 LLM 推理,这些技术包括:

  • 全球最强大的芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。
  • 第二代 Transformer 引擎:得益于全新微张量缩放支持,以及集成于 NVIDIA TensorRT™-LLM 和 NeMo Megatron 框架中的 NVIDIA 先进动态范围管理算法,Blackwell 将在新型 4 位浮点 AI 推理能力下实现算力和模型大小翻倍。
  • 第五代 NVLink:为了提升万亿级参数模型和混合专家 AI 模型的性能,最新一代 NVIDIA NVLink® 为每块 GPU 提供突破性的 1.8TB/s 双向吞吐量,确保多达 576 块 GPU 之间的无缝高速通信,满足了当今最复杂 LLM 的需求。
  • RAS 引擎:采用 Blackwell 架构的 GPU 包含一个用于保障可靠性、可用性和可维护性的专用引擎。此外,Blackwell 架构还增加了多项芯片级功能,能够利用 AI 预防性维护来运行诊断并预测可靠性相关的问题。这将最大程度地延长系统正常运行时间,提高大规模 AI 部署的弹性,使其能够连续不间断运行数周乃至数月,同时降低运营成本。
  • 安全 AI:先进的机密计算功能可以在不影响性能的情况下保护 AI 模型和客户数据,并且支持全新本地接口加密协议,这对于医疗、金融服务等高度重视隐私问题的行业至关重要。
  • 解压缩引擎:专用的解压缩引擎支持最新格式,通过加速数据库查询提供极其强大的数据分析和数据科学性能。未来几年,每年需要企业花费数百亿美元的数据处理将越来越多地由 GPU 加速。

一个超大规模的超级芯片

NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联,将两个 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 相连。

为了实现超高的 AI 性能,搭载 GB200 的系统可与同在今天发布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X800 以太网平台连接。这两个平台均可提供速度高达 800Gb/s 的高性能网络。

GB200 是 NVIDIA GB200 NVL72 的关键组件。NVIDIA GB200 NVL72 是一套多节点液冷机架级扩展系统,适用于高度计算密集型的工作负载。它将 36 个 Grace Blackwell 超级芯片组合在一起,其中包含通过第五代 NVLink 相互连接的 72 个 Blackwell GPU 和 36 个 Grace CPU。此外,GB200 NVL72 还内置 NVIDIA BlueField®-3 数据处理器,可在超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。对于LLM 推理工作负载,相较于同样数量的 NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及多达 25 倍的成本和能耗降低。

该平台可作为一个单 GPU,具有 1.4 exaflops 的 AI 性能和 30TB 的快速内存,是组成最新一代 DGX SuperPOD 的基础模块。

NVIDIA 提供的 HGX B200 是一个通过 NVLink 连接 8 块 B200 GPU 的服务器主板,支持基于 x86 的生成式 AI 平台。基于 NVIDIA Quantum-2 InfiniBand 和 Spectrum-X 以太网网络平台,HGX B200 支持高达 400Gb/s 的网络速度。

Blackwell 的全球合作伙伴网络

合作伙伴将从今年晚些时候开始供应采用 Blackwell 架构的产品。

AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure 将成为首批提供 Blackwell 驱动实例的云服务提供商。同时 NVIDIA 云合作伙伴计划的公司 Applied Digital、CoreWeave、Crusoe、IBM Cloud 和 Lambda 也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle US, UK, and Australian Government Clouds、Scaleway、新加坡电信、Northern Data Group 的 Taiga Cloud、Yotta Data Services 的 Shakti Cloud 和 YTL Power International 等主权 AI 云也将提供基于 Blackwell 架构的云服务和基础设施。

GB200 还将通过 NVIDIA DGX™ Cloud 提供,NVIDIA DGX™ Cloud 是一个与领先的云服务提供商共同设计的 AI 平台,可为企业开发人员提供专门的基础设施和软件访问权限,使他们能够构建并部署先进的生成式 AI 模型。AWS、Google Cloud 和 Oracle Cloud Infrastructure 计划在今年晚些时候托管采用 NVIDIA Grace Blackwell 的新实例。

Cisco、戴尔科技、慧与、联想和 Supermicro 预计将提供基于 Blackwell 产品打造的各种服务器。Aivres、永擎电子、华硕、Eviden、Foxconn、技嘉、Inventec、和硕、QCT、Wistron、纬颖和 ZT Systems 也将提供基于 Blackwell 的服务器。

此外,越来越多的软件制造商网络,包括工程仿真领域的全球领导者 Ansys、Cadence 和 Synopsys,将使用基于 Blackwell 的处理器来加速其用于设计和仿真电气、机械和制造系统及零件的软件。他们的客户可以更低成本、更高能效地使用生成式 AI 和加速计算,来加速产品上市。