|
|
隨著高速運算的需求成長,更有效的AI Server(AI服務(wù)器)散熱方案也受到重視。根據(jù)TrendForce集邦咨詢最新AI Server報告,由于NVIDIA(英偉達)將在2024年底前推出新一代平臺Blackwell,屆時大型CSP(云端服務(wù)業(yè)者)也會開始建置Blackwell新平臺的AI Server數(shù)據(jù)中心,預(yù)估有機會帶動液冷散熱方案滲透率達10%。
氣冷、液冷并行方案滿足更高散熱需求
根據(jù)TrendForce集邦咨詢調(diào)查,NVIDIA Blackwell平臺將于2025年正式放量,取代既有的Hopper平臺、成為NVIDIA高端GPU(圖形處理器)主力方案,占整體高端產(chǎn)品近83%。在B200和GB200等追求高效能的AI Server機種,單顆GPU功耗可達1,000W以上。HGX機種每臺裝載8顆GPU,NVL機種每柜達36顆或72顆GPU,顯著的能耗將促進AI Server散熱液冷供應(yīng)鏈的成長。
TrendForce集邦咨詢表示,服務(wù)器芯片的熱設(shè)計功耗(Thermal Design Power, TDP)持續(xù)提高,如B200芯片的TDP將達1,000W,傳統(tǒng)氣冷散熱方案不足以滿足需求;GB200 NVL36及NVL72整機柜的TDP甚至將高達70kW及近140kW,需要搭配液冷方案方以有效解決散熱問題。
據(jù)TrendForce集邦咨詢了解, GB200 NVL36架構(gòu)初期將以氣冷、液冷并行方案為主;NVL72因有更高散熱能力需求,原則上優(yōu)先使用液冷方案。
觀察現(xiàn)行GB200機柜系統(tǒng)液冷散熱供應(yīng)鏈,主要可分水冷板(Cold Plate)、冷卻分配系統(tǒng)(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接頭(Quick Disconnect, QD)和風扇背門(Rear Door Heat Exchanger, RDHx)等五大零部件。
TrendForce集邦咨詢指出,CDU為其中的關(guān)鍵系統(tǒng),負責調(diào)節(jié)冷卻劑的流量至整個系統(tǒng),確保機柜溫度控制在預(yù)設(shè)的TDP范圍內(nèi)。TrendForce集邦咨詢觀察,目前針對NVIDIA AI方案,以Vertiv(維諦技術(shù))為主力CDU供應(yīng)商,奇鋐、雙鴻、臺達電和CoolIT等持續(xù)測試驗證中。
2025年GB200出貨量估可達6萬柜,促Blackwell平臺成市場主流、將占NVIDIA高端GPU逾8成
根據(jù)TrendForce集邦咨詢觀察,2025年NVIDIA將以HGX、GB200 Rack及MGX等多元組態(tài)AI Server,分攻CSPs及企業(yè)型客戶,預(yù)估這三個機種的出貨比例約為5:4:1。HGX平臺可較無縫對接現(xiàn)有Hopper平臺設(shè)計,使CSPs或大型企業(yè)客戶能迅速采用。GB200整柜AI Sever方案將以超大型CSPs為主打,TrendForce集邦咨詢預(yù)期NVIDIA將于2024年底先導入NVL36組態(tài),以便快速進入市場。NVL72因其AI Server整體設(shè)計及散熱系統(tǒng)較為復(fù)雜,預(yù)計將于2025年推出。
TrendForce集邦咨詢表示,在NVIDIA大力擴展CSPs客群的情況下,預(yù)估2025年GB200折算NVL36合計出貨數(shù)量可望達6萬柜,而GB200的Blackwell GPU用量可望達210-220萬顆。
然而,終端客戶采用GB200 Rack的過程仍有幾項變量。TrendForce集邦咨詢指出,NVL72需較完善的液冷散熱方案,難度較高。而液冷機柜設(shè)計較適合新建數(shù)據(jù)中心,但會牽涉土地建物規(guī)劃等復(fù)雜程序。此外,CSPs可能不希望被單一供應(yīng)商綁住規(guī)格,可能會選擇HGX或MGX等搭載x86 CPU架構(gòu)的機種,或擴大自研ASIC(專用集成電路)AI Server基礎(chǔ)設(shè)施,以應(yīng)對更低成本或特定AI應(yīng)用場景。
*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表北京漢深對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。
|
|