NVIDIA Blackwell AI性能で最大4倍アップHopperもH100とH200でAMD MI300Xを上回る

NVIDIAは、AI推論性能を競うMLPerf Inference v4.1において、同社の最新テクノロジーを結集し、驚異的な結果を残しました。特に注目すべきは、初登場のNVIDIA BlackwellアーキテクチャがLlama 2 70Bモデルの推論では、NVIDIA H100 Tensor Core GPUの最大4倍もの性能を発揮したことです。

また、NVIDIA H200 Tensor Core GPUもすべてのデータセンターワークロードで力強い存在感を示し、H100比で最大1.5倍の性能向上を達成。ソフトウェアの最適化により、前回のプレビュー時から最大27%の性能向上を実現しました。

さらに、NVIDIA Triton Inference Serverを使ったLlama 2 70Bの初の結果提出では、NVIDIA TensorRT-LLMとほぼ同等の性能を実現。エッジ部門のGPT-Jベンチマークでは、NVIDIA Jetson AGX Orinプラットフォームを使用し、前回から最大6.2倍の性能向上を達成しました。

それでは、主要な結果を詳しく見ていきましょう。

Table of Contents

NVIDIA Blackwell（B200）衝撃のデビューを飾る

2024年のNVIDIA GTCで発表されたNVIDIA Blackwellアーキテクチャは、AIスーパーチップの新時代を切り開く存在です。2080億トランジスタを搭載し、NVIDIAに最適化されたTSMC 4NPプロセスを採用した史上最大のGPUであるだけでなく、第2世代Transformer Engineを搭載。新しいBlackwell Tensor Coreテクノロジーと TensorRT-LLMの革新により、高速かつ正確なFP4 AI推論を可能にしています。

今回のMLPerf Inferenceで初登場したBlackwell（B200）は、Llama 2 70Bモデルの推論でH100の最大4倍の性能（1秒あたりのトークン数）を叩き出しました。この驚異的な結果は、Blackwell FP4 Transformer Engineを存分に活用したもので、モデルの変更なしでベンチマークの高い精度要件を満たしつつ、このような高性能を実現しています。

Llama 2 70B	サーバー (tokens/s)	オフライン (tokens/s)
1 NVIDIA B200 GPU	10,756	11,264
H100 に対する増加	4x	3.7x

備考:
この表は、MLPerf Llama 2 70B ベンチマークにおけるNVIDIA Hopperと比較した場合の、NVIDIA B200 GPUの1GPUあたりの性能向上を示しています。
H100の1GPUあたりのスループットは、8GPUの結果を8で割った値です。

NVIDIA H200 Tensor Core GPU、すべてのベンチマークで卓越した性能を発揮

NVIDIA H200 GPUは、業界最速のAIメモリHBM3eを搭載し、NVIDIA Hopperアーキテクチャを強化したものです。H100と比べ、メモリ容量が1.8倍、メモリ帯域幅が1.4倍に増加し、メモリ負荷の高いユースケースで威力を発揮します。

今回、NVIDIAはH200 GPU 8基を使用し、すべてのワークロードで好結果を出しました。特にLlama 2 70Bでは、1,000ワット構成のH200が34,864トークン/秒（オフライン）、32,790トークン/秒（サーバー）を達成。700ワット構成でも31,303トークン/秒（オフライン）、30,128トークン/秒（サーバー）と、H100比で50%の性能向上を実現しています。

また、Mixtral 8x7Bの56億パラメータLLMでは、NVIDIA H100とH200がそれぞれ最大59,022トークン/秒、52,416トークン/秒を達成。AMDのInstinct MI300Xはこのワークロードで結果の提出がありませんでした。Stable Diffusion XLでも、NVIDIAのフルスタック最適化により、Hopperチップの性能が最大27%向上した一方、AMDはまだこのワークロードでのMLPerf提出を行っていません。

ベンチマーク	GPU	サーバー	オフライン
Llama 2 70B	8 H200	32,790 トークン/秒	34,864 トークン/秒
Mixtral 8x7B	8 H200	57,177 トークン/秒	59,022 トークン/秒
GPT-J	8 H200	19,243 トークン/秒	20,086 トークン/秒
Stable Diffusion XL	8 H200	16.78 クエリ/秒	17.42 サンプル/秒
DLRM v2 99%	8 H200	585,208 クエリ/秒	637,342 サンプル/秒
DLRM v2 99.9%	8 H200	370,083 クエリ/秒	390,953 サンプル/秒
ResNet-50 v1.5	8 H200	632,229 クエリ/秒	756,960 サンプル/秒
BERT 99%	8 H200	57,609 クエリ/秒	73,310 サンプル/秒
BERT 99.9%	8 H200	51,212 クエリ/秒	63,950 サンプル/秒
RetinaNet	8 H200	13,604 クエリ/秒	14,439 サンプル/秒
3D U-Net	8 H200	ベンチマーク対象外	54.71 サンプル/秒

備考:
Llama 2 70B の結果は、1000Wで設定されたH200を使用しています。
その他の結果は、700Wで設定されたH200を使用しています。

ソフトウェアの力が NVIDIA のアドバンテージを押し上げる

NVIDIAがMLPerfの各リリースで大幅な性能向上を実現できているのは、同社のソフトウェアを絶え間なく改良している成果です。このアドバンテージは、Hopper GPUを搭載したサーバーを運用する顧客に直接もたらされます。

我々が以前から主張してきたように、AIとデータセンターはハードウェアだけが全てではありません。ハードウェアも重要な要素ですが、それと同等かそれ以上に重要なのがソフトウェアです。いくら強力なハードウェアを持っていても、それを支えるソフトウェアがなければ意味がありません。AIインフラに多額の投資を行う企業は、エコシステム全体を見渡して判断を下すのです。

NVIDIAはそのエコシステムを整え、世界中の企業やAIパワーハウスにソリューションを提供する準備が整っています。だからこそ、同社は現在、各パートナー企業を通じてHGX H200の一般提供を発表しているのです。

まとめ

MLPerf Inference v4.1の結果は、NVIDIAの技術革新の力強さを示すものでした。Blackwellの圧倒的な性能、Hopperの大幅な性能向上、Triton Inference ServerとTensorRT-LLMの効果など、ハードウェアとソフトウェアの両面でNVIDIAのテクノロジーがAI推論ワークロードを大きく前進させることが実証されました。

Blackwellが発売前からこれほど高い性能を示していることを考えると、Hopperがそうであったように、このAIに特化した新アーキテクチャがさらに進化し、来年後半のBlackwell Ultraに最適化の恩恵をもたらすことが期待できます。今後も、LLMやジェネレーティブAIの分野でNVIDIAの果たす役割に大きな注目が集まるでしょう。NVIDIAは、ハードウェアとソフトウェアの両面で絶え間ない改善を続けることで、AI分野における圧倒的な優位性を維持し、拡大し続けているのです。

Welcome to Liberty Case

Welcome to Liberty Case

Welcome to Liberty Case

Topics

Read more

Topics

Read more

Subscribe to Liberty Case

Topics

Read more

Topics

Read more

Subscribe to Liberty Case

Welcome to Liberty Case

Become a member

NVIDIA Blackwell AI性能で最大4倍アップHopperもH100とH200でAMD MI300Xを上回る

NVIDIA Blackwell（B200）衝撃のデビューを飾る

NVIDIA H200 Tensor Core GPU、すべてのベンチマークで卓越した性能を発揮

ソフトウェアの力が NVIDIA のアドバンテージを押し上げる

まとめ

Subscribe for exclusive content