在每個資料中心加速推動進階 AI。
人工智慧、複雜模擬和大規模資料集均需要多個高速互連和完整加速的軟體堆疊的 GPU。NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 網路的完整功能,以及全面最佳化的人工智慧與高效能運算 (HPC) 軟體堆疊,提供最佳的應用表現,並為每個資料中心縮短洞察所需時間
。
NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,推論效能比前一代提升了 11 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。
NVIDIA HGX 包括進階網路選項,速度高達每秒 800 Gb,可利用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X 乙太網路實現最高的人工智慧效能。HGX 也採用 NVIDIA BlueField®-3 資料處理器 (DPU),可支援雲端網路、組合式儲存空間、零信任安全性,以及超大規模人工智慧雲端中的 GPU 運算彈性。
此為預計效能,之後將有可能更新。Token 間延遲 (TTL) = 20 毫秒即時,第一個 token 延遲 (FTL) = 5 秒,輸入序列長度 = 32,768,輸出序列長度 = 1,028,8 張八向 HGX H100 GPU 氣冷式 vs. 1 張 HGX B300 氣冷式的個別 GPU 效能比較;使用拆解式推論提供服務。
對於 Llama 3.1 405B 等模型,HGX B300 推論效能比前一代 NVIDIA Hopper™ 高 11 倍。第二代 Transformer 引擎使用自訂的 Blackwell Tensor 核心技術,並結合 TensorRT™-LLM 創新,可加速大型語言模型 (LLM) 的推論。
預計效能可能變動。8 張八向 HGX H100 vs. 1 張 HGX B300 的個別 GPU 效能比較。
第二代 Transformer 引擎採用 8 位元浮點 (FP8) 與全新精度,可將 Llama 3.1 405B 等大型語言模型訓練速度大幅提升 4 倍。這項重大突破結合每秒 1.8 TB 之 GPU 與 GPU 互連速度的第五代 NVLink、InfiniBand 網路,以及 NVIDIA Magnum IO™ 軟體。這些技術結合之後,企業和廣泛的 GPU 運算叢集便可高效擴充。
資料中心是新的運算單元,而網路在擴充整個資料中心的應用效能上扮演不可或缺的角色。HGX 搭配 NVIDIA Quantum InfiniBand 可提供一流的效能和效率,確保充分利用運算資源。
對於部署乙太網路的人工智慧雲端資料中心,HGX 最適合與 NVIDIA Spectrum-X 網路平台搭配使用,此平台能透過乙太網路支援最高的人工智慧效能。它採用 Spectrum-X 交換器和 NVIDIA SuperNIC,實現最佳資源利用率和效能隔離,為各種規模的成千上萬個同時進行的 AI 作業提供穩定且可預測的結果。Spectrum-X 可支援先進的雲端多租戶和零信任安全架構。NVIDIA 以推論設計打造了 Israel-1,這是一款超大規模的生成式人工智慧超級電腦,所採用的 Dell PowerEdge XE9680 伺服器是以 NVIDIA HGX 8-GPU 平台、BlueField-3 SuperNIC 和 Spectrum-4 交換器為基礎所打造而成。
NVIDIA HGX 提供單一基板,可搭配 4 張或 8 張 Hopper SXM、或是 8 張 NVIDIA Blackwell GPU,或是 16 張 Blackwell Ultra SXM。這些強大的軟硬體組合為前所未有的人工智慧超級運算效能奠定基礎。
HGX B300 | HGX B200 | |
---|---|---|
外形規格 | 8 張 NVIDIA Blackwell Ultra SXM | 8 張 NVIDIA Blackwell SXM |
FP4 Tensor Core** | 144 PFLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
FP8/FP6 Tensor Core* | 72 PFLOPS | 72 PFLOPS |
INT8 Tensor 核心* | 2 POPS | 72 POPS |
FP16/BF16 Tensor Core* | 36 PFLOPS | 36 PFLOPS |
TF32 Tensor 核心* | 18 PFLOPS | 18 PFLOPS |
FP32 | 600 TFLOPS | 600 TFLOPS |
FP64/FP64 Tensor 核心 | 10 TFLOPS | 296 TFLOPS |
總記憶體 | 最多 2.3 TB | 1.4 TB |
NVLink | 第五代 | 第五代 |
NVIDIA NVSwitch™ | NVLink 5 交換器 | NVLink 5 交換器 |
NVSwitch GPU 至 GPU 頻寬 | 每秒 1.8 TB | 每秒 1.8 TB |
NVLink 頻寬大小總計 | 每秒 14.4 TB | 每秒 14.4 TB |
網路頻寬 | 每秒 1.6 TB | 每秒 0.8 TB |
注意力效能 | 2 倍 | 1x |
* 含稀疏性
** 含稀疏性 | 不含稀疏性
HGX H200 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
外形規格 | 4 個 NVIDIA H200 SXM | 8 個 NVIDIA H200 SXM | ||
FP8 Tensor Core* | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor 核心* | 16 POPS | 32 POPS | ||
FP16/BF16 Tensor Core* | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor 核心* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
總記憶體 | 564 GB HBM3 | 1.1 TB HBM3 | ||
GPU 彙總頻寬 | 每秒 19 GB | 每秒 38 GB | ||
NVLink | 第四代 | 第四代 | ||
NVSwitch | N/A | NVLink 4 交換器 | ||
NVSwitch GPU 至 GPU 頻寬 | N/A | 每秒 900 GB | ||
彙總頻寬 | 每秒 3.6 TB | 每秒 7.2 TB | ||
網路頻寬 | 每秒 0.4 TB | 每秒 0.8 TB |
HGX H100 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
外形規格 | 4 個 NVIDIA H100 SXM | 8 個 NVIDIA H100 SXM | ||
FP8 Tensor Core* | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor 核心* | 16 POPS | 32 POPS | ||
FP16/BF16 Tensor Core* | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor 核心* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
總記憶體 | 320 GB HBM3 | 640 GB HBM3 | ||
GPU 彙總頻寬 | 每秒 13 GB | 每秒 27 GB | ||
NVLink | 第四代 | 第四代 | ||
NVSwitch | N/A | NVLink 4 交換器 | ||
NVSwitch GPU 至 GPU 頻寬 | N/A | 每秒 900 GB | ||
彙總頻寬 | 每秒 3.6 TB | 每秒 7.2 TB | ||
網路頻寬 | 每秒 0.4 TB | 每秒 0.8 TB |
* 具有稀疏性
深入瞭解 NVIDIA Blackwell 架構