NVIDIA HGX 平台

在每個資料中心加速推動進階 AI。

專為人工智慧與高效能運算打造

人工智慧、複雜模擬和大規模資料集均需要多個高速互連和完整加速的軟體堆疊的 GPU。NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 網路的完整功能,以及全面最佳化的人工智慧與高效能運算 (HPC) 軟體堆疊,提供最佳的應用表現,並為每個資料中心縮短洞察所需時間

無與倫比的端對端加速運算平台

NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,推論效能比前一代提升了 11 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA HGX 包括進階網路選項,速度高達每秒 800 Gb,可利用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X 乙太網路實現最高的人工智慧效能。HGX 也採用 NVIDIA BlueField®-3 資料處理器 (DPU),可支援雲端網路、組合式儲存空間、零信任安全性,以及超大規模人工智慧雲端中的 GPU 運算彈性。

人工智慧推理推論:效能與多樣性

此為預計效能,之後將有可能更新。Token 間延遲 (TTL) = 20 毫秒即時,第一個 token 延遲 (FTL) = 5 秒,輸入序列長度 = 32,768,輸出序列長度 = 1,028,8 張八向 HGX H100 GPU 氣冷式 vs. 1 張 HGX B300 氣冷式的個別 GPU 效能比較;使用拆解式推論提供服務。

即時大型語言模型推論

對於 Llama 3.1 405B 等模型,HGX B300 推論效能比前一代 NVIDIA Hopper™ 高 11 倍。第二代 Transformer 引擎使用自訂的 Blackwell Tensor 核心技術,並結合 TensorRT™-LLM 創新,可加速大型語言模型 (LLM) 的推論。

AI 訓練:效能與擴充性

預計效能可能變動。8 張八向 HGX H100 vs. 1 張 HGX B300 的個別 GPU 效能比較。

訓練效能的全新境界

第二代 Transformer 引擎採用 8 位元浮點 (FP8) 與全新精度,可將 Llama 3.1 405B 等大型語言模型訓練速度大幅提升 4 倍。這項重大突破結合每秒 1.8 TB 之 GPU 與 GPU 互連速度的第五代 NVLink、InfiniBand 網路,以及 NVIDIA Magnum IO™ 軟體。這些技術結合之後,企業和廣泛的 GPU 運算叢集便可高效擴充。

使用 NVIDIA 網路加速 HGX 平台

資料中心是新的運算單元,而網路在擴充整個資料中心的應用效能上扮演不可或缺的角色。HGX 搭配 NVIDIA Quantum InfiniBand 可提供一流的效能和效率,確保充分利用運算資源。

對於部署乙太網路的人工智慧雲端資料中心,HGX 最適合與 NVIDIA Spectrum-X 網路平台搭配使用,此平台能透過乙太網路支援最高的人工智慧效能。它採用 Spectrum-X 交換器和 NVIDIA SuperNIC,實現最佳資源利用率和效能隔離,為各種規模的成千上萬個同時進行的 AI 作業提供穩定且可預測的結果。Spectrum-X 可支援先進的雲端多租戶和零信任安全架構。NVIDIA 以推論設計打造了 Israel-1,這是一款超大規模的生成式人工智慧超級電腦,所採用的 Dell PowerEdge XE9680 伺服器是以 NVIDIA HGX 8-GPU 平台、BlueField-3 SuperNIC 和 Spectrum-4 交換器為基礎所打造而成。

NVIDIA HGX 規格

NVIDIA HGX 提供單一基板,可搭配 4 張或 8 張 Hopper SXM、或是 8 張 NVIDIA Blackwell GPU,或是 16 張 Blackwell Ultra SXM。這些強大的軟硬體組合為前所未有的人工智慧超級運算效能奠定基礎。

  HGX B300 HGX B200
外形規格 8 張 NVIDIA Blackwell Ultra SXM 8 張 NVIDIA Blackwell SXM
FP4 Tensor Core** 144 PFLOPS | 105 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core* 72 PFLOPS 72 PFLOPS
INT8 Tensor 核心* 2 POPS 72 POPS
FP16/BF16 Tensor Core* 36 PFLOPS 36 PFLOPS
TF32 Tensor 核心* 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor 核心 10 TFLOPS 296 TFLOPS
總記憶體 最多 2.3 TB 1.4 TB
NVLink 第五代 第五代
NVIDIA NVSwitch™ NVLink 5 交換器 NVLink 5 交換器
NVSwitch GPU 至 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
NVLink 頻寬大小總計 每秒 14.4 TB 每秒 14.4 TB
網路頻寬 每秒 1.6 TB 每秒 0.8 TB
注意力效能 2 倍 1x
  HGX H200
  4-GPU 8-GPU
外形規格 4 個 NVIDIA H200 SXM 8 個 NVIDIA H200 SXM
FP8 Tensor Core* 16 PFLOPS 32 PFLOPS
INT8 Tensor 核心* 16 POPS 32 POPS
FP16/BF16 Tensor Core* 8 PFLOPS 16 PFLOPS
TF32 Tensor 核心* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
總記憶體 564 GB HBM3 1.1 TB HBM3
GPU 彙總頻寬 每秒 19 GB 每秒 38 GB
NVLink 第四代 第四代
NVSwitch N/A NVLink 4 交換器
NVSwitch GPU 至 GPU 頻寬 N/A 每秒 900 GB
彙總頻寬 每秒 3.6 TB 每秒 7.2 TB
網路頻寬 每秒 0.4 TB 每秒 0.8 TB
  HGX H100
  4-GPU 8-GPU
外形規格 4 個 NVIDIA H100 SXM 8 個 NVIDIA H100 SXM
FP8 Tensor Core* 16 PFLOPS 32 PFLOPS
INT8 Tensor 核心* 16 POPS 32 POPS
FP16/BF16 Tensor Core* 8 PFLOPS 16 PFLOPS
TF32 Tensor 核心* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
總記憶體 320 GB HBM3 640 GB HBM3
GPU 彙總頻寬 每秒 13 GB 每秒 27 GB
NVLink 第四代 第四代
NVSwitch N/A NVLink 4 交換器
NVSwitch GPU 至 GPU 頻寬 N/A 每秒 900 GB
彙總頻寬 每秒 3.6 TB 每秒 7.2 TB
網路頻寬 每秒 0.4 TB 每秒 0.8 TB

深入瞭解 NVIDIA Blackwell 架構

OSZAR »