11分鐘訓完GPT-3!英偉達H100 橫掃MLPerf 8項基準測試,下一代顯卡25年發布

**來源:**新智元

**導讀:**黃老闆又贏麻了!在最新的MLPerf基準測試中,H100成功創下8項測試紀錄。而外媒透露,下一代消費級顯卡或在2025發布。

最新MLPerf訓練基準測試中,H100 GPU在所有的八項測試中都創下了新紀錄!

如今,NVIDIA H100幾乎已經統治了所有類別,並且是新LLM基準測試中使用的唯一的GPU。

3,584個H100 GPU群在短短11分鐘內完成了基於GPT-3的大規模基準測試。

MLPerf LLM基準測試是基於OpenAI的GPT-3模型進行的,包含1750億個參數。

Lambda Labs估計,訓練這樣一個大模型需要大約3.14E23 FLOPS的計算量。

11分鐘訓出GPT-3的怪獸是如何構成的

在LLM和BERT自然語言處理(NLP) 基準測試中排名最高的系統,是由NVIDIA和Inflection AI聯合開發。

由專門從事企業級GPU加速工作負載的雲服務提供商CoreWeave託管。

該系統結合了3584個NVIDIA H100加速器和896個Intel Xeon Platinum 8462Y+處理器。

因為英偉達在H100中引入了新的Transformer引擎,專門用於加速Transformer模型訓練和推理,將訓練速度提高了6倍。

CoreWeave從雲端提供的性能與英偉達從本地數據中心運行的AI超級計算機所能提供的性能已經非常接近了。

這得益於CoreWeave使用的NVIDIA Quantum-2 InfiniBand網絡具有低延遲網絡。

隨著參與訓練的H100 GPU從數百個擴展到3000多個。

良好的優化使得整個技術堆棧在要求嚴苛的LLM測試中實現了近乎線性的性能擴展。

如果將GPU的數量降低到一半,訓練相同的模型時間會增加到24分鐘。

說明整個系統的效率潛力,隨著GPU的增加,是超線性的。

最主要的原因是,英偉達從GPU設計之初就考慮到了這個問題,使用NVLink技術來高效實現了GPU之間的通信。

在參與測試的90個系統中,有82個系統都使用了英偉達的GPU進行加速。

單卡訓練效率

系統集群訓練時間對比

英特爾參加測評的系統使用64到96個不等的Intel Xeon Platinum 8380 處理器和256到389個不等的Intel Habana Gaudi2加速器。

然而,英特爾提交的GPT-3的訓練時間為311分鐘。

成績和英偉達相比就稍微有點慘不忍睹了。

分析師:英偉達優勢過大

行業分析師認為,英偉達的在GPU上的技術優勢是非常明顯的。

而它作為AI基礎設施提供商,在行業中的主導地位還體現在英偉達多年建立起來的生態系統粘性上。

AI社區對英偉達的軟件的依賴性也非常強。

幾乎所有AI框架都基於英偉達提供的底層CUDA庫和工具。

而且它還能提供全堆棧的AI工具和解決方案。

除了為AI開發人員提供支持之外,英偉達還繼續投資用於管理工作負載和模型的企業級工具。

在可預見的未來,英偉達在行業的領先地位將會非常穩固。

分析師還進一步指出MLPerf測試結果中所展現的,NVIDIA系統在雲端進行AI訓練的強大功能和效率,才是英偉達「戰未來」的最大本錢。

下一代Ada Lovelace GPU,2025年發布

Tom's Hardware自由撰稿人Zhiye Liu也於近日發文,介紹了下一代英偉達Ada Lovelace顯卡的計劃。

H100訓練大模型的能力,毋庸置疑。

只用3584個H100,短短11分鐘內,就能訓練出一個GPT-3模型。

在最近的新聞發布會上,英偉達分享了一份新路線圖,詳細介紹了下一代產品,包括GeForce RTX 40系列Ada Lovelace GPU的繼任者,而前者,是當今最好的遊戲顯卡。

根據路線圖,英偉達計劃在2025年推出「Ada Lovelace-Next」顯卡。

如果繼續沿用當前的命名方案,下一代GeForce產品應該是作為GeForce RTX 50系列上市。

根據南美黑客組織LAPSU$得到的信息,Hopper Next很可能被命名為Blackwell。

在消費級顯卡上,英偉達保持著兩年一更新的節奏。

他們在2016年推出了Pascal,在2018年推出了Turing,在2020年推出了Ampere,在2022年推出了Ada Lovelace。

如果這次Ada Lovelace的繼任者會在2025年推出,英偉達無疑就打破了通常的節奏。

最近的AI大爆發,產生了對英偉達GPU的巨大需求,無論是最新的H100,還是上一代的A100。

根據報導,某大廠今年就訂購了價值10億美元的Nvidia GPU。

儘管有出口限制,但我國仍然是英偉達在全世界最大的市場之一。

(據說,在深圳華強北電子市場,就可以買到少量英偉達A100,每塊售價為2萬美元,是通常價格的兩倍。)

對此,英偉達已經對某些AI產品做了微調,發布了H100或A800等特定SKU,以滿足出口要求。

Zhiye Liu對此分析道,換個角度看,出口法規其實是有利於英偉達的,因為這意味著芯片製造商客戶必須購買更多原版GPU的變體,才能獲得同等的性能。

這也就能理解,為什麼英偉達會優先考慮生成計算GPU,而非遊戲GPU了。

最近的報導顯示,英偉達已經增加了計算級GPU的產量。

沒有面臨來自AMD的RDNA 3產品堆棧的激烈競爭,英特爾也沒有對GPU雙頭壟斷構成嚴重威脅,因此,英偉達在消費側可以拖延。

最近,Nvidia通過GeForce RTX 4060和GeForce RTX 4060 Ti,將其GeForce RTX 40系列產品堆棧又擴大了。

GeForce RTX 4050以及頂部的RTX 4080 Ti或GeForce RTX 4090 Ti等,都有潛力。

如果迫不得已,英偉達還可以從舊的Turing版本中拿出一個產品,更新Ada Lovelace,給它封個「Super」待遇,進一步擴展Ada陣容。

最後,Zhiye Liu表示,至少今年或明年,Lovelace架構不會真正更新。

參考資料:

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate.io APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)