AI界的“春晚”英伟达GTC大会:四代旗舰GPU全揭露!黄仁勋发布Blackwell全家桶,助DeepSeek登顶世界之巅

导读

AI算力领域的竞争不断持续升温

2025年3月19日黄仁勋身着经典黑色皮衣登台,未经彩排的2小时演讲激情四溢。他发布了全新GB300芯片、两款个人AI计算机、机器人平台Newton,并宣布与通用汽车携手,将AI技术应用于自动驾驶领域。此外,他还预告了下一代超级芯片架构Vera Rubin及下下一代芯片Feynman架构。还多次提到中国大模型DeepSeek。

文字编辑|宋雨涵

1

整场发布会重点信息一览

新发布涉及十大重点

整场演讲信息量爆棚,覆盖加速计算、深度推理模型、AI智能体、物理AI、机器人技术、自动驾驶等在内的AI下一个风口,新发布涉及十大重点:

1、Vera Rubin与Rubin Ultra芯片:两代旗舰芯片HBM内存实现升级,GPU“乐高拼装”技术日益成熟。提前揭晓Vera Rubin NVL144机架及Rubin Ultra NVL576机架性能,FP4推理性能峰值达15EFLOPS,基于Rubin的AI工厂性能相较Hopper提升900倍。

2、Blackwell Ultra芯片:全球首款288GB HBM3e GPU亮相,发布GB300 NVL72机架及HGX B300 NVL16机架系统方案,实现机架如单一大型GPU般高效运行。

3、数据中心AI超算方案:推出Blackwell Ultra DGX SuperPOD,搭载全新DGX GB300与DGX B300系统,助力企业轻松构建AI超级计算机。同时发布AI托管服务NVIDIA Instant AI Factory及AI数据中心运营编排软件NVIDIA Mission Control。

4、AI推理与智能体软件:AI推理软件Dynamo在运行DeepSeek-R1模型时,GPU生成token数量提升超30倍。全新Llama Nemotron推理模型系列中,Super 49B版本吞吐量达Llama 3.3 70B及DeepSeek R1 Llama 70B的5倍。宣布向全球企业提供构建AI智能体的核心模块,存储巨头携手构建企业级AI数据平台。

5、个人AI超算产品:推出全球最小AI超算DGX Spark及高性能桌面级AI超算DGX Station,满足开发者本地微调或推理深度思考模型需求。

6、Blackwell芯片进展:已全面投入生产,销量较上一代Hopper增长3倍。

7、工作站与服务器GPU更新:推出RTX Pro Blackwell数据中心GPU、桌面级GPU及笔记本电脑GPU新品。

8、光电一体化封装网络交换机:推出“世界领先”的网络解决方案,支持AI工厂扩展至数百万块GPU规模。

9、物理AI与机器人技术:开源Isaac GR00T N1人形机器人基础模型,与迪士尼研究院、谷歌DeepMind合作开发开源物理引擎Newton。

10、电信AI与自动驾驶领域:与通用汽车携手打造GM AI,为工厂和汽车提供全方位全栈自动驾驶安全系统NVIDIA Halos。

Blackwell GPU创下DeepSeek-R1推理性能的世界纪录

值得一提的是,英伟达宣布Blackwell GPU创下满血版DeepSeek-R1推理性能的世界纪录。
单个配备8块Blackwell GPU的NVIDIA DGX系统,可实现每位用户每秒超过250个token,或每秒超过30000个token的最大吞吐量。通过硬件和软件的结合,英伟达自今年1月以来将DeepSeek-R1 671B模型的吞吐量提高了约36倍,相当于每个token的成本改善了约32倍。

2

芯片演进路线提前曝光

下一代Vera Rubin超级芯片明年登场!

英伟达Blackwell芯片自推出以来,在AI行业取得了显著成就。据数据显示,2024年全球前四云服务提供商共计采购了130万片Hopper架构芯片,而到了2025年,他们更是购买了360万片Blackwell芯片。

英伟达最新财报显示,Blackwell架构AI芯片的销售势头极为强劲,在正式出货的首个季度就实现了超百亿美元的收入,远超公司的预期。

展望未来,黄仁勋预计到2028年,数据中心建设支出将达到1万亿美元。

近年来,数据中心一直是英伟达营收和利润的主要来源。在之前的财报沟通会上,黄仁勋和公司CFO均表示,全球对AI基础设施的需求将持续增长,因为客户希望部署更大、更复杂的集群,这不仅需要英伟达的GPU,还需要其NVLink交换机、InfiniBand以及Spectrum-X系列网络套件。

GTC大会上,英伟达推出了新一代芯片Blackwell Ultra(GB300),包括NVIDIA GB300 NVL72机架级解决方案和NVIDIA HGX B300 NVL16系统。GB300 NVL72的AI性能是前一代GB200 NVL72的1.5倍,这使得基于GB300构建的AI工厂的收入机会相比基于Hopper构建的系统增加了50倍。

同时,黄仁勋还展示了未来三年芯片架构的技术路线图。

下一代芯片将被命名为Vera Rubin,预计将在2026年下半年接替Blackwell Ultra。而到了2027年下半年,英伟达将推出Rubin Ultra版本。黄仁勋表示,Rubin的性能将达到Hopper的900倍,相比之下,Blackwell相较Hopper已经实现了68倍的提升。

此外,英伟达还计划推出Rubin的Ultra版本,以满足更高性能的需求。不仅如此,黄仁勋还提前透露了Rubin之后的下一代芯片架构名称——Feynman,以著名物理学家理查德·费曼的名字命名,延续了英伟达以科学家命名GPU架构的传统。

四代芯片路线一览:

  • 2026年Vera Rubin:集成288GB HBM4内存,单机架FP4算力3.6EFLOPS(GB300的3.3倍)
  • 2027年Rubin Ultra:搭载1TB HBM4e内存,FP4算力15EFLOPS(GB300的14倍)
  • 2028年Feynman:采用下一代光互连技术,支持百万级GPU集群,为“千兆瓦AI工厂”铺路

“构建AI工厂需要数年前瞻规划,我们必须让客户看到未来三年的技术蓝图。”黄仁勋强调

三、新旗舰Blackwell Ultra:

全球首个288GB HBM3e GPU

作为本次大会的核心产品,Blackwell Ultra GPU以288GB HBM3e内存和1.8TB/s NVLink带宽成为焦点。

其FP4精度算力达15PFLOPS,推理速度较前代Hopper架构提升40倍,支持72颗GPU构建单机架级解决方案。

搭载该芯片的GB300 NVL72机架在运行DeepSeek-R1 671B模型时,单用户响应速度达253Token/s,峰值吞吐量突破30,000Token/s,较前代H100系统提升36倍。

黄仁勋现场演示了复杂推理任务:7人婚宴座位安排问题在10秒内完成,而传统系统需1分半钟。

技术突破:

  • 第五代Tensor Core:支持FP4精度,优化长上下文处理能力
  • 动态稀疏注意力机制:显存占用压缩至18-24GB,支持消费级显卡运行
  • 水冷散热革命:1.4kW功耗下实现稳定运行,推动数据中心进入“二次冷”时代

四、机器人仍是压轴节目

具身智能浪潮已经到来

在芯片发布之后,黄仁勋又带来了全新的AI推理服务软件Dynamo,旨在开启AI工厂的革命性变革。演讲的压轴环节,机器人再次登场,但这次不同以往,上台的是英伟达与谷歌、迪士尼联合开发的机器人Blue(星球大战主题机器人)。演示环节中,Blue展现出极高的灵活性,能够准确听从指令,且形态呆萌可爱。

作为算力领域的佼佼者,英伟达将新的增长希望寄托于机器人技术。黄仁勋表示,机器人技术的下一波浪潮已经到来,它由物理AI驱动,使机器人能够理解并适应物理世界。可以说,机器人时代已经悄然降临。

在此次大会上,英伟达隆重推出了全球首款开源人形机器人通用基础模型——GR00T N1。这款模型不仅是世界首款开源的,还具备可定制性,为人形机器人的发展提供了全新基础。

据介绍,GR00T N1采用了双系统架构,这一设计灵感来源于人类的认知原理。其中,“系统1”负责快速思考,类似于人类的直觉和反射反应;“系统2”则负责慢速思考,用于做出深思熟虑的决策。

此外,黄仁勋还宣布了与谷歌DeepMind和迪士尼研究所的合作,共同开发开源物理引擎Newton。这一引擎将使机器人能够更精确地处理复杂任务,提升其智能化水平。预计Newton物理引擎将于2025年晚些时候正式推出。

黄仁勋对机器人市场的前景充满信心,他认为这一市场具有巨大的爆发潜力,并有望成为最大的产业之一。期待如黄仁勋所言,在AI时代,每个人都能成为赢家。