英伟达H200在AI和HPC方面性能均有提升

作者：张妮娜 • 2024年02月25日 • 业界动态

AI和HPC技术的发展，推动了基因组测序、地震预测等领域的进步，改善了人类生活。

然而，其技术背后都需要处理大量数据并使用复杂的算法。这些对于计算能力都提出了非常高的要求。

为了应对高并行和高复杂的工作负载。英伟达即将在2024年第二季度发布NVIDIA H200 Tensor Core GPU，它将帮助企业优化AI和HPC工作负载。

常见的AI工作负载其实包括数据收集与预处理，模型的选择、训练、测试与优化，模型部署和推理，其中，GPU在模型训练、调优和推理环节都有关键作用。

GPU的并行能力更强，适合处理大量重复的相对简单（相对CPU而言的简单运算）的数学运算，这些数学运算刚好是开发AI模型所需要的能力。

英伟达的H200有更强的计算能力和更强的高带宽内存，它能进一步降低训练和运行AI模型所需的时间，从而提高效率和生产力。

H100大幅领先于A100，而H200大幅领先于H100，即将于第二季度发布的H200备受瞩目。H200使用了HBM3e内存技术，提供141 GB的显存容量和4.8 TB每秒的超高带宽速度。

与A100芯片相比，H200的显存容量翻倍，带宽也提高了2.4倍。与H100相比，H200 GPU的带宽增加了1.4倍。

总之，H200在性能和能效方面都有显著提升。

AI推理性能上的提升

H200将会把AI推理的性能提升到一个新的高度。所谓AI推理，就是让模型用自己的知识来处理此前没有见过的数据，基于特定上下文输入来产生相关的输出。

我们知道，GPT-3达到了1750亿参数，Llama2也有最多700亿参数。随着参数规模的不断增长，模型对更强硬件的需求也更迫切。

我们看到，H200对GPT-3 175B模型进行基准测试时，在性能方面的表现是A100的18倍。相比之下，H100的性能是A100的11倍。

图1：A100、H100和H200在推理GPT-3时的性能表现

英伟达的GPU芯片配备了新的内置大型语言模型——TensorRT-LLM，这是一个工具包，在对GPT-3和Llama 2这样的大型语言模型进行推理时，它能提供一些优化。

图2：推理Llama-70B时，H200吞吐性能相较于H100有大幅提升

当运行Llama-70B时，新的H200在吞吐量性能方面比使用旧版本TensorRT-LLM的H100芯片实现了1.9倍的提升。

图3展示了采用新一代TensorRT-LLM的H200芯片，相比于H100的提升

而在推理Llama 2-13B模型时，H200的吞吐性能达到了H100的1.4倍。

Stability AI，就是开发了Stable Diffusion的那家公司，通过使用英伟达的TensorRT显著提高了文生图的性能。

通过在H100芯片上使用转换后的ONNX模型，性能显著提升，仅在1.47秒内就能生成高清图片，实现了性能翻倍。

下图总结了各个芯片在用Stable Diffusion XL 1.0生成图片时候的吞吐性能，Stable Diffusion XL 1.0是Stability AI最新的文生图大模型。

这里生成的图片都是1024x1024的尺寸，另外，生成时都选择了30 Steps的配置，步数越多，对算力要求也就更大。

通过在芯片上使用TensorRT库，Stable Diffusion XL 1.0在使用H100芯片时，获得了70%的性能提升。

而如果使用H200，配合新一代的TensorRT，Stable Diffusion XL 1.0的性能必然还会实现进一步的提升。

高性能计算方面的提升

要面向大数据集来进行复杂运算，经常需要用到HPC的能力。MILC项目是研究亚原子物理中的强相互作用理论的，是典型的HPC负载，H200在MILC项目中比双路x86服务器的性能高了110倍。

H200在HPC方面的性能整体比A100芯片高出100%，而H100相较于A100芯片提升了大概70%。

能效方面的提升

H200 在能源效率和总拥有成本（TCO）方面达到了新的水平。尽管H200带来了巨大的性能提升，但其功耗与前一代产品H100相同。

与H100相比，H200 在能源使用效率和TCO效率方面提高了50%。这意味着H200不仅性能更高，能耗不变，而且实现了更高的成本效益。

H200在能效方面的提升主要得益于优化的Hopper架构，当然，这也是性能提升的主要原因之一。

全新的H200将进一步提高AI和HPC方面的性能表现，帮助企业更轻松地创建数据密集型应用。

美中不足的是，H200的成本可能会更高。但是，成本高是老黄的问题吗？

本文来源于DOIT传媒，文章内容仅供参考，不构成投资建议。

赞 ()

618 办公装备升级指南：AI 加持三星 Galaxy Tab S11 ，高效办公更顺心

2026年05月26日 20点00分
永铭SDF 3.0V 330F方形超级电容：解决AI服务器PCS高di/dt瞬态负载冲击难题

2026年05月25日 10点00分
大容量存储空间三星Galaxy Tab S10 FE成618必购大屏好物

2026年05月28日 10点00分
存储品牌康盈半导体乔迁新址前海人寿大厦

2026年05月26日 15点00分
半导体

2026中国半导体图景：基础设施已建成，全球市场再平衡

2026年05月26日 10点30分
摩尔线程

词元时代算力先行，摩尔线程云边端产品全面亮相

2026年05月19日 17点31分
摩尔线程

摩尔线程发布MTT AICUBE：以自研智能SoC为底座，打造家庭AI中枢

2026年05月19日 17点27分
鲲鹏鲲鹏

智能体时代算力新图景：鲲鹏与昇腾共筑全栈创新底座

2026年05月18日 17点20分
昇腾

昇腾生态半年蜕变：从能用走向好用，国产AI底座筑牢自主生态根基

2026年04月28日 22点14分
企业级存储企业级存储企业级存储企业级存储

永铭聚合物钽电容：AI服务器E1.S/E3.S SSD与U.2超薄5mm SATA启动盘的PLP电容选型分析

2026年04月28日 17点12分
Akamai

云智一体安全护航：Akamai重构分布式AI推理新范式

2026年04月27日 23点33分
算力算力

从亦庄机器人马拉松破纪录，看算力底座如何支撑人形机器人商业化

2026年04月24日 22点31分
HPC HPC HPC HPC HPC HPC

智算引擎赋能产业升级：思源电气HPC体系化能力应用实践

2026年04月20日 17点17分
紫光云

紫光云2026 AI战略：从云到智，以垂直大模型重构政企与工业生产力

2026年04月03日 17点49分
中国AI已入下半场：从技术狂欢到价值落地，Gartner解读关键变局

2026年03月27日 22点42分
自研AGI CPU芯片：Arm在AI时代的转折迈出重要一步

2026年03月25日 16点36分

发表回复

评论列表

点击查看更多

联系我们

微信：百易小助手

邮件：contact@doit.com.cn

工作时间：周一至周五，9:30-18:30，节假日休息