|
|
(一)前言 NVIDIA GB200是一款高度集成的超級計算模塊,它是基于NVIDIA的Blackwell架構(gòu)設(shè)計的。這款模塊結(jié)合了兩個NVIDIA B200 Tensor Core GPU和一個NVIDIA Grace CPU,旨在提供前所未有的AI性能。 GB200 搭載液冷,產(chǎn)業(yè)鏈各參與方共促技術(shù)落地,我們認為,在 AIGC 驅(qū)動下,AI 算力芯片功耗不斷增長,服務(wù)器亟需更高效的散熱方式,全球 AI 芯片龍頭英偉達(新品 GB200 搭載液冷)、AI 服務(wù)器廠商超微電腦(根據(jù)超微電腦2QFY24 業(yè)績會紀要,預計 Q2 內(nèi)擴產(chǎn)液冷機架)均為液冷技術(shù)作出背書,疊加國內(nèi)產(chǎn)業(yè)鏈協(xié)同推進(如三大運營商于 23 年 6 月發(fā)布電信運營商液冷技術(shù)白皮書,提出 25 年及以后液冷在 50%以上項目規(guī)模應(yīng)用的愿景),總結(jié)來看,液冷同時受到上游芯片端、服務(wù)器端、下游 IDC 端、運營商端協(xié)同推進,有望提振液冷設(shè)備及新型液冷數(shù)據(jù)中心建設(shè)需求。根據(jù) DellOro預測,到 2027 年全球液冷市場規(guī)模將接近 20 億美元。
(二)GH200與GB200的基本介紹 通過與GH200各項參數(shù)的對比來介紹GB200,可能更為清晰和直觀。 GH200 是 NVIDIA 2023年發(fā)布的 H200 GPU 與 Grace CPU 的結(jié)合體,一個 Grace CPU 對應(yīng)一個 H200 GPU,H200 GPU 的顯存可以達到 96GB 或 144GB。Grace CPU 和 Hopper GPU 之間通過 NVLink-C2C 互聯(lián),帶寬為 900GB/s。對應(yīng)的功耗為 1000w。 GH200硬件架構(gòu) 2024年3月19日,英偉達在年度GTC上推出了最強AI芯片GB200,性能相較于H100,GB200的算力提升了6倍,在處理多模態(tài)特定領(lǐng)域任務(wù)時,其算力更是能達到H100的30倍。能耗卻降低了25倍。和 GH200 不同,一個 GB200 由1 個 Grace CPU 和2 個 Blackwell GPU 組成,相應(yīng)的 GPU 算力和顯存都加倍。CPU 和 GPU 之間依然通過 900GB/s 的 NVLink-C2C 實現(xiàn)高速互聯(lián)。對應(yīng)的功耗為 2700W。
NVIDIA GB200 Superchip GH200與GB200主要性能參數(shù)對比圖片 GB200的功耗達到了2700W,這么高的功耗對散熱的需求非常高,GB200 NVL72是一個多節(jié)點液冷機架級擴展系統(tǒng),適用于高度計算密集型的工作負載。
(三)各廠商液冷服務(wù)器及液冷機柜 GB200 主要有2種機柜形態(tài): GB200 NVL72(10+9+8布局方式) GB200 NVL36x2(5+9+4布局方式)
第一種是GB200 NVL72機柜,整個機柜功率大約120kW。目前通用CPU機柜支持高達12kW/機架,而更高密度的H100 風冷機柜通常僅支持大約 40kW/機架。一般對于單機柜超過30kW就應(yīng)該考慮使用液冷,因此GB200 NVL72機柜采用的是液冷方案。 GB200 NVL72 機柜的組成:由18 個 1U 計算節(jié)點+ 9 個 NVSwitch 組成。每個計算節(jié)點高 1U,包含 2 個 Bianca 板。每個 Bianca 板包含 1 個 Grace CPU 和 2 個 Blackwell GPU。NVSwitch 托盤有兩個 28.8Gb/s NVSwitch5 ASIC。 這個形態(tài)的機柜目前很少被部署,因為大多數(shù)數(shù)據(jù)中心基礎(chǔ)設(shè)施即使采用直接芯片液體冷卻 (DLC) 也無法支持如此高的機架密度。 另一種機柜形態(tài)是GB200 NVL36 * 2 ,它是由兩個并排互連在一起的機柜組成。目前大多數(shù) GB200 機架將使用此結(jié)構(gòu)形態(tài)。每個機架包含 18 個 Grace CPU 和 36 個 Blackwell GPU。在這2個機柜之間,保持非阻塞的全互聯(lián),支持NVL72中所有72個GPU之間的互通。每個計算節(jié)點的高度為2U,包含2個 Bianca 板。每個NVSwitch 托盤都有兩個28.8Gb/s NVSwitch5 ASIC 芯片。每個芯片有 14.4Gb/s 指向背板,14.4Gb/s 指向前板。每個 NVswitch 托盤有 18 個 1.6T 雙端口 OSFP 籠,水平連接到一對 NVL36 機架。
在2024臺北國際電腦展期間公開亮相的GB200 NVL72當中,外型大同小異,多數(shù)廠商現(xiàn)場展出的是單機柜形態(tài):例如,緯穎、永擎、技嘉、美超微、英業(yè)達,大多搭配1U尺寸的運算節(jié)點伺服器,其中,技嘉、英業(yè)達、和碩均展出搭配2U尺寸的運算節(jié)點伺服器,廠商們將這樣的配置稱為GB200 NVL36。 接下來針對各家做的GB200液冷服務(wù)器和液冷機柜進行分別介紹。 英偉達 、超微 、鴻海 、廣達 、維穎 、華碩 、英業(yè)達
在GTC 2024 ,NVIDIA 展示了一個配置了 DGX GB200 NVL72 的機架,整個系統(tǒng)通過 NVLink 完全連接。整個機柜重達 1.36 噸(3,000 磅)。該系統(tǒng)是 Nvidia 2023年 11 月展示的Grace-Hopper Superchip 機架系統(tǒng)的升級版。不過,該系統(tǒng)的 GPU 數(shù)量是后者的兩倍多。
在機柜的最頂端有2臺 52 口(48個千兆RJ45口 +4個QSFP28 100Gbps 聚合端口) Spectrum 交換機 。這2臺交換機用于管理和傳輸來自組成系統(tǒng)的各個計算節(jié)點、NVLink 交換機和電源框的各類數(shù)據(jù)。 這2臺52口交換機正下方是整個機柜6個電源框中的3個,另外3個位于機柜的底部。這些電源框負責為 120kW 機柜提供電力。據(jù)估算,6個 415V、60A 的 PSU 足以滿足這一要求。但是在設(shè)計中考慮了一定程度的備份冗余。這些電源的運行電流可能超過 60A。每臺設(shè)備的供電通過機柜后面的Bus Bar完成。 在上部3個電源框的下面有10個1U的計算節(jié)點。在節(jié)點的前面板有四個 InfiniBand NIC(前面板左側(cè)和中央的四個QSFP-DD 籠),它們構(gòu)成了計算網(wǎng)絡(luò)。系統(tǒng)還配備了 BlueField-3 DPU,據(jù)說它負責處理與存儲網(wǎng)絡(luò)的通信。除了幾個管理端口外,還有4個 E1.S 驅(qū)動器托盤。 每個計算節(jié)點都有兩個 Grace Arm CPU。每個 Grace 都連接到每個計算節(jié)點的兩個 Blackwell GPU。每個節(jié)點的功耗在 5.4kW ~5.7kW 之間。絕大部分熱量通過直接到芯片 (DTC) 液體冷卻帶走 下面是計算節(jié)點帶有液冷模塊和不帶液冷模塊的內(nèi)部視圖。 NVIDIA DGX GB200 NVL72 計算節(jié)點內(nèi)部
位于頂部10個計算節(jié)點下方的是9臺 NVSwitch交換機。面板上的金色部件是用于插拔交換機的手柄。
NVLink Switch 內(nèi)部有兩個 NVLink 交換機芯片,也采用液冷方案。
在機柜的底部,即是9臺 NVSwitch交換機的下方,有8個1U的計算節(jié)點。
在機柜的后面,機柜采用盲插的Bus Bar供電設(shè)計,以及為每個設(shè)備提供冷卻液體的插頭和 NVLink 連接。每個部件都需要留出一定的活動空間,以確保盲插的可靠性。
據(jù)黃仁勛介紹,冷卻液以2L/s的速度進入機架,進入機柜的溫度為 25℃,流出機柜的溫度會超過 20℃。 NVIDIA 表示,在機柜后部使用銅纜(光纖)NVLink每柜可以節(jié)省大約20kW的電力。所有銅纜的長度預計超過 2 英里(3.2公里)。這也解釋了為什么 NVLink 交換機位于機柜的中間位置,因為這樣做可以使電纜長度保持在最短。 (2)超微Supermicro Supermicro NVIDIA MGX? Systems
(3)鴻海Foxconn
迎接AI需求商機 富士康于NVIDIA GTC推出AI軟硬件解決方案
2024年3月18日,在英偉達的GTC大會上,鴻海集團子公司鴻佰科技(Ingrasys)發(fā)布一款使用英偉達GB200芯片的NVL72液冷服務(wù)器,該服務(wù)器集成了72個英偉達Blackwell GPU和36個英偉達Grace CPU。 黃仁勛以及鴻海、擁有不錯的交情,雙方在服務(wù)器等方面有多個合作,而旗下最新超級AI服務(wù)器DGX GB200也即將在下半年開始量產(chǎn),而GB200系列產(chǎn)品將以Rack形式出貨,目前粗估的訂單量就高達5萬柜。鴻海目前已手握DGX GB200系統(tǒng)機柜三大類新品(分別為:DGX NVL72、NVL32、HGX B200),可說是是平臺世代交替的大贏家。
新一代 AI 液冷機架解決方案 NVIDIA GB200 NVL72,結(jié)合了 36 個 NVIDIA GB200 Grace Blackwell 超級芯片,其中包括 72 個基于 NVIDIA Blackwell 的 GPU 和 36 個NVIDIA Grace CPU ,它們通過第五代NVIDIA NVLink互連,形成單個大型 GPU。
全球最大的電子制造與服務(wù)商富士康(鴻海)科技集團宣布參展NVIDIA GTC 2024人工智能開發(fā)者大會,展示與NVIDIA合作因應(yīng)下世代需求的AI服務(wù)器與液冷機柜,以及應(yīng)用在電動車的最新智能駕駛控制器解決方案。此外,鴻海研究院人工智能研究所開發(fā)的新世代自動駕駛軌跡預測深度學習模型“QCNet”技術(shù),同樣會在開展首日登場與外界分享。富士康科技集團劉揚偉董事長也出席與會NVIDIA GTC主題演講活動,以行動力挺,親自見證AI服務(wù)器新品的發(fā)表,并感謝NVIDIA創(chuàng)辦人黃仁勛在富士康科技日(HHTD23)的站臺。 隨著生成式人工智能(Generative AI)席卷各個產(chǎn)業(yè),滿足客戶多樣化的計算需求,提供客戶合適的人工智能資料中心基礎(chǔ)設(shè)施解決方案,成為集團的首要任務(wù)。富士康科技集團攜手旗下子公司鴻佰科技(Ingrasys Technology Inc.)在GTC大會展出多種AI服務(wù)器產(chǎn)品,包括Ingrasys NVDIA MGX服務(wù)器,提供市場上最多樣化的1U/2U/4U NVIDIA MGX服務(wù)器產(chǎn)品組合,模塊化架構(gòu)提供GPU、CPU及DPU組合極高的靈活性和擴充性;搭配液冷解決方案的AI加速器GB6181,能實現(xiàn)高效散熱,并容納八個NVIDIA H100 Tensor Core GPU,適用于高效能的AI訓練,可支援下一代強大GPU,為高性能人工智能資料中心提供強大算力支援。 鴻佰在GTC大會圣荷西會議中心 (San Jose Convention Center)展區(qū)中,本次還端出最新世代AI數(shù)據(jù)中心液冷解決方案GB200 NVL72,搭載72個高性能NVIDIA Blackwell GPU和36個NVIDIA Grace CPU,通過第五代NVLink互連,串聯(lián)成單一大規(guī)模GPU,大幅加快大型語言模型的推論速度。為了下一代人工智能基礎(chǔ)建設(shè)需求,集團展出先進液冷解決方案,包含液態(tài)對氣態(tài)的side car解決方案,和液態(tài)對液態(tài)CDU解決方案,具備高達1300kW的強大散熱能力,能適用不同數(shù)據(jù)中心環(huán)境。
同場亮相的還有ES2100儲存系統(tǒng),此NVMe-oF存儲系統(tǒng)采用NVIDIA Spectrum-2以太網(wǎng)交換機,提供更高的吞吐量,實現(xiàn)極致的網(wǎng)絡(luò)性能。其模塊化和創(chuàng)新的無背板設(shè)計,讓使用者更換兩片交換機模塊即實現(xiàn)輕松系統(tǒng)升級。
富士康科技集團子公司鴻佰科技總經(jīng)理丁肇邦表示:“利用NVIDIA MGX平臺,我們能夠采用模塊化設(shè)計,用符合成本效益的方式打造多種服務(wù)器配置,同時縮短上市時間,滿足客戶不同加速運算需求,幫助客戶構(gòu)建各種應(yīng)用的人工智能數(shù)據(jù)中心。” NVIDIA GPU 產(chǎn)品部門副總裁 Kaustubh Sanghani 表示:“借由NVIDIA MGX服務(wù)器模塊化參考架構(gòu),富士康打造出一系列多元化的加速運算解決方案,將能滿足不同產(chǎn)業(yè)的不同需求。透過支援NVIDIA Blackwell架構(gòu)的處理器、網(wǎng)絡(luò)和軟件,富士康集團的新一代解決方案將加速推動生成式AI運算的新時代來臨!
除了AI數(shù)據(jù)中心解決方案外,在自動駕駛領(lǐng)域,集團推出基于NVIDIA的Orin X處理器,所打造的Smart Drive智能駕駛控制器,展示了富士康在ADAS硬件領(lǐng)域的多元解決方案。根據(jù)不同的產(chǎn)品定位,提供Basic、Advanced和Premium三個等級的ADAS控制器,其中,Premium等級搭載兩個Orin X處理器,具有強大的運算能力,足以應(yīng)對最具挑戰(zhàn)性的算力需求。搭載水冷散熱技術(shù),為系統(tǒng)提供穩(wěn)定、高效的運行環(huán)境,確保產(chǎn)品性能始終如一。 在軟件方面,鴻海研究院人工智能研究所栗永徽所長,在開展首日以“QCNet: Query-Centric Trajectory Prediction for Autonomous Driving”為主題,對外分享研究所開發(fā)的新世代自動駕駛軌跡預測深度學習模型。這套富士康與香港城市大學共同合作開發(fā)的QCNet 技術(shù),在自動駕駛領(lǐng)域里,具備在復雜場景中同時預測多目標物未來軌跡的先進能力。研發(fā)團隊也參與競逐全世界軌跡預測重要的大挑戰(zhàn) Argoverse 2 Motion Forecasting Competition, 并取得第一名的佳績。在自動駕駛技術(shù)激烈競爭而快速變化的時期,富士康在AI領(lǐng)域的這項成果,展現(xiàn)集團在AI技術(shù)研發(fā)的領(lǐng)先性與優(yōu)越性。
(4)云達科技(廣達)QCT 廣達 云達科技現(xiàn)場展示的1U機型QuantaGrid D75B-1U,在Nvidia GB200 NVL72的系統(tǒng)建置框架之下,可透過單座機柜容納72臺這樣的設(shè)備。D75B-1U本身搭載2張GB200 Grace Blackwell Superchip,云達在此標明CPU可存取480 GB容量的LPDDR5X記憶體,GPU本身配備144GB容量HBM3e高頻寬記憶體,均搭配冷水板(Cold Plate)形式的液態(tài)冷卻配件;儲存裝置方面,這臺1U服務(wù)器可容納8臺E1.S厚度15mm外形的PCIe固態(tài)硬盤,以及1張M.2 2280外形的PCIe固態(tài)硬盤;在PCIe裝置擴充方面,D75B-1U可容納2張雙寬全高全長尺寸的介面卡,以及2張半高半長尺寸的介面卡,均支援PCIe 5.0 x16。
(5)維穎Wiwynn 作為 NVIDIA 的重要合作伙伴,Wiwynn是首批符合NVIDIA GB200 NVL72標準的公司之一。Wiwynn 在 GTC 2024 上展示了其最新的AI 計算解決方案。新發(fā)布的NVIDIA GB200 Grace?Blackwell超級芯片支持最新的NVIDIA Quantum-X800 InfiniBand和NVIDIA Spectrum?-X800以太網(wǎng)平臺。其中包括由NVIDIA GB200 NVL72 系統(tǒng)驅(qū)動的新型的機架級液冷AI服務(wù)器機架。Wiwynn充分利用其在高速數(shù)據(jù)傳輸、能源效率、系統(tǒng)集成和先進冷卻技術(shù)方面的優(yōu)勢。其目標是滿足客戶對數(shù)據(jù)中心生態(tài)系統(tǒng)中性能、可擴展性和多樣性的新興需求。
Wiwynn GB200 NVL72 機架解決方案
Wiwynn UMS100 通用冷卻管理系統(tǒng) Feature
以下為宣傳圖片。
(6)華碩ASUS 在 2024 年臺北國際電腦展上,華碩推出的多款 AI 服務(wù)器。其中包括新款 NVIDIA Blackwell 服務(wù)器,包括 B100、B200 和 GB200 服務(wù)器以及 AMD MI300X 服務(wù)器。甚至還有 Intel Xeon 6 服務(wù)器以及擁有高達 500W CPU TDP 的 AMD EPYC Turin 服務(wù)器。 最重要的是華碩 ESC AI POD,它是該公司的NVIDIA GB200 NVL72版本。
華碩還展示了其中一個節(jié)點的外觀。我們可以看到 1U 機箱中的母線電源和雙液冷 GB200 節(jié)點。節(jié)點里面配備2張GB200 Grace Blackwell Superchip,上面均覆蓋冷水板,而在機箱中間有個他們設(shè)計的電源配送板(Power Distribution Board,PDB),可將48伏特直流電轉(zhuǎn)換為12伏特直流電,供應(yīng)Blackwell GPU使用;除此之外,這個運算槽還搭配可安裝E1.S外形固態(tài)硬盤的存儲模塊,以及兩張BlueField-3數(shù)據(jù)處理器系列的雙寬全高半長款式B3240。 華碩 ESC AI POD 計算節(jié)點設(shè)計
對于那些想要低成本 Arm 計算和 NVIDIA GPU 的用戶,有一個雙 NVIDIA Grace Hopper GH200 平臺,即華碩 ESC NM2-E1。它將兩個 Grace Hopper CPU 和 GPU 組合單元放入一個系統(tǒng)中。
(7)英業(yè)達Inventec 以英業(yè)達為例,他們展示整柜式的GB200 NVL72之余,旁邊擺設(shè)代號為Artemis的1U服務(wù)器與2U服務(wù)器,當中均配備2張GB200 Grace Blackwell Superchip、ConnectX-7 400Gb/s InfiniBand網(wǎng)路卡,以及BlueField-3 400Gb/s資料處理器。
- 120kW每柜
液冷盲插+bus bar盲插+通信盲插
機柜后部
服務(wù)器機柜搭配一座稱為側(cè)車(Side Car)的冷卻機柜(編按:所謂的側(cè)車是一種液態(tài)冷卻機柜搭配服務(wù)器機柜的部署形式,應(yīng)該是借用兩輪機車側(cè)邊加裝附有單輪乘坐設(shè)備的比喻)。 凡本公眾平臺注明來源或轉(zhuǎn)自的文章,版權(quán)歸原作者及原出處所有,僅供大家學習參考之用,如有侵權(quán),煩請聯(lián)系,我們立即刪除。 【免責聲明】 本公眾平臺對轉(zhuǎn)載、分享的內(nèi)容、陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完善性提供任何明示或暗示的保證,僅供讀者參考。
關(guān)于我們 北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭,UQD系列液冷快速接頭、EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)和集成服務(wù)。在國家數(shù)字經(jīng)濟、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點,公司聚焦組建高素質(zhì)、經(jīng)驗豐富的液冷工程師團隊,為客戶提供卓越的工程設(shè)計和強大的客戶服務(wù)。 公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。
|
|