|
|
近期,馬斯克在其X社交平臺上宣布,xAI團(tuán)隊、X團(tuán)隊、英偉達(dá)及支持公司于當(dāng)?shù)貢r間7月22日凌晨4時20分開始在孟菲斯超級集群上(Memphis Supercluster)進(jìn)行訓(xùn)練。
01 Memphis Supercluster穩(wěn)坐第一嘛?AI軍備競賽從未止步
據(jù)馬斯克介紹稱,該集群在單個RDMA (遠(yuǎn)程直接內(nèi)存訪問)fabric上使用100,000張液冷H100GPU,是“世界上最強(qiáng)大的AI訓(xùn)練集群”。其目標(biāo)是在今年12月前訓(xùn)練出“按每項指標(biāo)衡量都是世界上最強(qiáng)大的人工智能!备鶕(jù)SemiAnalysis 估計,該公司目前擁有約 32,000 個 GPU,其余的將在第四季度上線。
從規(guī)模上看,新的xAI孟菲斯超級集群確實(shí)在GPU算力方面超越了最新Top500榜單上的任何一臺超級計算機(jī)。如Frontier的37,888 個AMD GPU、Aurora的60,000個Intel GPU和Microsoft Eagle的14,400個Nvidia H100 GPU,似乎xAI孟菲斯超級集群在規(guī)模和效率來看可以稱為老馬口中所說的“全球最強(qiáng)大的AI訓(xùn)練平臺”。 圖1.馬斯克在XAI數(shù)據(jù)中心現(xiàn)場。
此外,馬斯克還計劃在明年夏天再增加 300,000 個 GPU B200 集群,目標(biāo)是在 2025 年秋季之前讓整個項目啟動并運(yùn)行。這臺機(jī)器將用于為xAI的Grok聊天機(jī)器人的下一個版本提供動力。據(jù)信,xAI 目前從 Oracle Cloud 租用了大約 16,000 個 Nvidia H100 GPU,同時還在 X/Twitter 數(shù)據(jù)中心使用 Amazon Web Services 和備用容量。2024 年 5 月,xAI 完成了 60 億美元的一輪融資,該公司的估值為 240 億美元。
按照計劃,xAI 已經(jīng)正式開始在"世界上最強(qiáng)大的人工智能集群"上訓(xùn)練其 Grok 3 大型語言模型(LLM)。Grok 2 LLM 將于下月發(fā)布。馬斯克的目標(biāo)是在今年12月之前訓(xùn)練出“按每項指標(biāo)衡量都是世界上最強(qiáng)大的人工智能”——Grok3。相較于其他競爭對手,xAI入局較晚,在模型參數(shù)表現(xiàn)上也不突出。但財大氣粗的老馬表示,“我們的根本競爭力有賴于比其他任何人工智能公司更快!。 業(yè)內(nèi)人士指出,xAI超算基地的選址,將進(jìn)一步鞏固孟菲斯作為美國乃至全球重要科技中心的地位。同時,這座頂尖超算或?qū)⒅︸R斯克在與0penAI、谷歌等對手的 AI軍備競賽中取得優(yōu)勢。隨著全球AI賽道的競爭日益白熱化,這一超算項目的最新進(jìn)展備受業(yè)界矚目。
穩(wěn)坐第一嘛?AI軍備競賽從未止步
目前,微軟、谷歌和Meta等其他科技巨頭也都在擴(kuò)建數(shù)據(jù)中心來訓(xùn)練和運(yùn)行他們的人工智能模型。據(jù)報道稱,微軟和OpenAI正在計劃建設(shè)一個數(shù)據(jù)中心項目,該項目將包含一個擁有數(shù)百萬專用服務(wù)器芯片的超級計算機(jī),而目前項目耗資可能1150億美元,包括一個名為 Stargate的人工智能超級計算機(jī),預(yù)計將于2028年啟動。
包括Meta首席執(zhí)行官扎克伯格也在今年一月份表示,到2024年底,公司的計算基礎(chǔ)設(shè)施將包括3萬張H100顯卡。他還補(bǔ)充道,“如果包括其他GPU,則大約有60萬臺H100等效計算!
02 AIGC拉動算力極速升高,液冷市場有望進(jìn)入爆發(fā)期
AIGC以大模型、大數(shù)據(jù)為基礎(chǔ)。大模型是指通過在大規(guī)模寬泛的數(shù)據(jù)上進(jìn)行訓(xùn)練后能適應(yīng)下游任務(wù)的模型,大模型出現(xiàn)后: (1)模型參數(shù)量級式提升;(2)需求多元化加速算力多樣化升級:算力按照需求匹配,可分為基礎(chǔ)算力、智能算力及超算算力。
2021年,全球計算設(shè)備算力總規(guī)模達(dá)到615EFlops,增速44%。2030年,有望增至56ZFlops,CAGR達(dá)到65%,其中智能算力由232EFlops增至52.5ZFlops,CAGR超過80% ;大模型出現(xiàn)后,帶來了新的算力增長趨勢,平均算力翻倍時間為9.9個月
算力提升的背后,芯片必須具備更高計算效率,在更短時間內(nèi)完成更多運(yùn)算,因而必然伴隨芯片能耗的加大。在超算中心中數(shù)據(jù)中心的高密度和高功耗特性使得散熱問題愈加突出,F(xiàn)代數(shù)據(jù)中心尤其是超算中心,通常包含大量高功耗設(shè)備,這些設(shè)備在運(yùn)行過程中會產(chǎn)生大量的熱量。如果不能及時有效地散熱,不僅會影響設(shè)備的性能,還可能導(dǎo)致硬件故障。根據(jù)IDC的報告,數(shù)據(jù)中心的能耗約有40%用于冷卻系統(tǒng),這說明有效的散熱方案對數(shù)據(jù)中心的運(yùn)營至關(guān)重要。
傳統(tǒng)的風(fēng)冷系統(tǒng)已經(jīng)難以滿足當(dāng)前超算中心的散熱需求,因此液冷技術(shù)逐漸成為行業(yè)的主流選擇。液冷技術(shù)的應(yīng)用使得數(shù)據(jù)中心能夠在相同空間內(nèi)容納更多的計算設(shè)備,同時降低了散熱系統(tǒng)的能耗。
例如,在超級計算機(jī)的世界中,液冷技術(shù)已經(jīng)在許多頂級設(shè)備中得到了廣泛應(yīng)用。以美國橡樹嶺國家實(shí)驗(yàn)室的超級計算機(jī)Frontier為例,該計算機(jī)采用了液冷技術(shù),以37,888個AMD GPU為核心,成為了全球最強(qiáng)的超級計算機(jī)之一。相比之下,xAI孟菲斯超級集群不僅在規(guī)模上超越了Frontier,還在散熱方案上更加先進(jìn),采用了液冷技術(shù)來提高散熱效率和計算性能。
液冷技術(shù)的應(yīng)用不僅提升了計算效率,還顯著降低了能耗和運(yùn)營成本。液冷技術(shù)通過更高效的熱傳導(dǎo)方式,能夠在相同能耗下處理更多的計算任務(wù)。根據(jù)TechRepublic的報告,液冷技術(shù)可以將數(shù)據(jù)中心的能耗降低20%-30%,這對那些需要大量計算資源的企業(yè)來說具有巨大的吸引力。
隨著AI訓(xùn)練和高性能計算的需求不斷增加,液冷技術(shù)在未來的超算中心中將扮演更加重要的角色。預(yù)計在未來幾年內(nèi),液冷技術(shù)將成為超算中心和大型數(shù)據(jù)中心的標(biāo)準(zhǔn)配置,以應(yīng)對日益增長的計算需求和散熱挑戰(zhàn)。
03 液冷技術(shù):驅(qū)動超算中心的核心力量
液冷數(shù)據(jù)中心的散熱系統(tǒng)架構(gòu)由室外(一次側(cè))和室內(nèi)(二次側(cè))兩部分組成。室外冷卻塔中的冷卻液通過室內(nèi)的冷卻液體流量分配單元(CDU)提供冷卻液循環(huán)動力。冷卻液經(jīng)CDU二次側(cè)輸出,與服務(wù)器中發(fā)熱的電子元器件(如CPU、GPU、內(nèi)存等)的導(dǎo)熱冷板直接進(jìn)行熱交換。熱液體通過冷量分配單元輸出到室外冷卻塔進(jìn)行冷卻,然后重新循環(huán)使用。
CDU用于在液體回路之間進(jìn)行熱交換,分為機(jī)架式(嵌柜式)、機(jī)柜式和平臺式等。它的主要作用是隔離一次側(cè)和二次側(cè)回路,并在內(nèi)部提供熱交換能力。此外,CDU還可以控制壓力、流量、溫度、露點(diǎn),監(jiān)測水質(zhì)潔凈度和泄漏情況。
二次側(cè)系統(tǒng)包括供回液歧管和快速接頭等關(guān)鍵部件。供回液歧管用于將冷卻液從CDU分配到各機(jī)架內(nèi)的IT設(shè)備,并從出液端收集回流液體。由于連接點(diǎn)可能存在泄漏風(fēng)險,這些歧管通常設(shè)置在機(jī)柜底部?焖俳宇^能夠快速連接或斷開IT設(shè)備與液冷系統(tǒng)的連接,確保自封功能以防止流體泄漏,通常以公/母接頭配對使用。當(dāng)斷開時,快換接頭內(nèi)部的自封閥芯會自動密封,防止液體流出,保護(hù)周圍設(shè)備。
一次側(cè)是指室外制冷系統(tǒng),根據(jù)二次側(cè)末端的水溫和室外的氣象參數(shù)不同,一次側(cè)制冷系統(tǒng)可以分為自然冷卻和機(jī)械冷卻兩種形式。自然冷卻系統(tǒng)主要包括開式冷卻塔、閉式冷卻塔和干冷器,可提供30℃以上的冷卻水;機(jī)械制冷系統(tǒng)主要包括風(fēng)冷冷凍水系統(tǒng)和水冷冷凍水系統(tǒng),可提供12-18℃的冷凍水。根據(jù)冷卻液和發(fā)熱設(shè)備接觸換熱方式的不同,液冷技術(shù)可劃分為冷板式液冷、浸沒式液冷和噴淋式液冷三種類型。 圖2.冷卻技術(shù)分類(來源:中國液冷數(shù)據(jù)中心市場深度研究報告)。
(1)冷板式液冷技術(shù)
冷板式液冷通過把冷板與發(fā)熱器件緊密固定,將發(fā)熱器件的熱量傳導(dǎo)給冷板中的冷卻液,并將冷卻液中的熱量運(yùn)輸至后端冷卻。液冷數(shù)據(jù)中心應(yīng)用場景中,冷板式液冷對于服務(wù)器芯片組件及附屬部件改動較小,主要途徑為加裝液冷模塊,采用集中式或分布式CDU供液、 Manifold分液,對芯片、內(nèi)存等部件進(jìn)行精準(zhǔn)制冷。目前國內(nèi)寧暢/新華三/聯(lián)想/曙光/浪潮等企業(yè)均可提供冷板式液冷服務(wù)器綜合解決方案,以下是部分案例展示。
圖3.冷板式液冷結(jié)構(gòu)示意圖(來源:中國液冷數(shù)據(jù)中心市場深度研究報告)。
目前,冷板式液冷數(shù)據(jù)中心已形成相對成熟的解決方案,通過冷板和CDU帶走IT設(shè)備超過80%的熱量,該部分直接由冷卻塔帶走;另外20%的熱量可通過后置被動式液冷門,經(jīng)由冷水機(jī)組和冷卻塔之間換熱,支持25-28℃高溫水帶走熱量(高于行級空調(diào)18℃以下供水溫度),可以在全年大部分時間不開冷水機(jī)組,僅在夏季需要少量補(bǔ)冷, 從而做到制冷PUE最佳。
圖4.冷板式服務(wù)器案例(來源:數(shù)據(jù)中心大會現(xiàn)場拍攝)。
(2)浸沒式液冷技術(shù)
浸沒式液冷通過將發(fā)熱元件浸沒在冷卻液中,直接吸收設(shè)備產(chǎn)生 的熱量。根據(jù)工質(zhì)是否產(chǎn)生相變劃分為單相浸沒式液冷和雙相浸沒式液冷。單相浸沒式液冷的冷卻液在循環(huán)散熱過程中始終維持液相,由于要確保冷卻液不發(fā)生相變,單相浸沒技術(shù)通常使用高沸點(diǎn)的冷卻液, 同時滿足絕緣性強(qiáng)、黏度低、腐蝕性小,毒性小等性能要求,常用氟碳化合物和碳?xì)浠衔铮ǖV物油、合成油、天然油等),具有部署成本低、安全性高等優(yōu)勢。
雙相浸沒式液冷方案下,在密閉的浸沒式箱體中安裝放置服務(wù)器/交換機(jī)和低沸點(diǎn)的冷卻液,冷卻液受熱升溫,達(dá)到沸點(diǎn)后沸騰發(fā)生相變,由液態(tài)變?yōu)闅鈶B(tài),同時產(chǎn)生大量蒸汽,蒸汽逃逸升騰至箱體頂部, 遇到水冷冷凝器后熱量被吸收,凝結(jié)成液滴,滴落回容器再次冷卻循環(huán),冷凝器中被加熱的冷卻水則通過循環(huán)冷卻水系統(tǒng)完成排熱。用于雙相浸沒式的冷卻液一般選用硅酸酯類、芳香族物質(zhì)、有機(jī)硅、脂肪族化合物以及氟碳化合物作冷卻液。浸沒式液冷對服務(wù)器及浸沒腔體有較高要求,需要對腔體進(jìn)行定制,采用高密設(shè)計,同時采用結(jié)構(gòu)定制化設(shè)計,滿足液體與發(fā)熱器件 之間的熱交換和電子設(shè)備的運(yùn)維要求。 圖5.浸沒式液冷結(jié)構(gòu)示意圖(來源:中國液冷數(shù)據(jù)中心市場深度研究報告)。
硅立方采用浸沒式相變液冷,將服務(wù)器芯片、 主板在內(nèi)的所有計算部件浸沒于液態(tài)冷媒中, 實(shí)現(xiàn)高效散熱。硅立方單機(jī)柜功率達(dá)160kW, 是傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的4-5倍,PUE低至1.04。
圖6.中科曙光硅立方液體相變冷卻計算機(jī)(來源:中國液冷數(shù)據(jù)中心發(fā)展白皮書)。 作為全中國首座綠色等級達(dá)5A的液冷數(shù)據(jù) 中心, 仁和液冷數(shù)據(jù)中心采用了服務(wù)器全 浸沒液冷等多項節(jié)能技術(shù)進(jìn)行規(guī)劃設(shè)計與 建造,PUE低至1.09。
圖7.阿里巴巴浙江云計算仁和數(shù)據(jù)中心(來源:中國液冷數(shù)據(jù)中心發(fā)展白皮書)。
(3)噴淋式液冷
噴淋式液冷和發(fā)熱器件直接接觸,依靠泵壓或重力驅(qū)動,向發(fā)熱設(shè)備自上而下精準(zhǔn)噴淋,吸收并帶走熱量,排走的熱流體與外部環(huán)境 冷源進(jìn)行熱交換,冷卻液無相變。噴淋式液冷的冷卻液需具備絕緣、 導(dǎo)熱、抗氧化性等特點(diǎn),不發(fā)生相變,但在噴淋過程中存在液體飄逸和揮發(fā)問題,應(yīng)用成本較高,且不適合高密度服務(wù)器和超大規(guī)模數(shù)據(jù)中心。目前噴淋式主要以廣東合一為代表的企業(yè)針對該技術(shù)進(jìn)行推進(jìn)。
圖8.噴淋式液冷結(jié)構(gòu)示意圖(來源:中國液冷數(shù)據(jù)中心市場深度研究報告)。
2020年,中國長城推出我國首臺國產(chǎn)化噴淋式液冷服務(wù)器。通過噴淋系統(tǒng),實(shí)現(xiàn)了服務(wù)器件精準(zhǔn)散熱。某公司將長城噴淋液冷服務(wù)器應(yīng)用于云計算大數(shù)據(jù)中心,項目中,中國長城共提供了由16個噴淋液冷微模塊組成的數(shù)據(jù)中心,每個微模塊由一套控制系統(tǒng)、一套WCU單元、2個列頭柜、24個液冷機(jī)柜(配 置384臺服務(wù)器)組成。采用噴淋系統(tǒng),單機(jī)架功耗可提升至56KW以上,北京地區(qū)PUE為1.05-1.1
04 冷板增量已顯,浸沒靜等花開
液冷數(shù)據(jù)中心可采用冷板式液冷、浸沒式液冷和噴淋式液冷三種 技術(shù)路線,根據(jù)科智咨詢統(tǒng)計冷板式液冷方案應(yīng)用比例達(dá)到91%,是現(xiàn)階段及未來較長一段時間的主流技術(shù)形式。2019年以來,我國液冷數(shù)據(jù)中心市場增速較快,根據(jù)科智咨詢預(yù)計2027年我國液冷數(shù)據(jù)中心市場規(guī)模為1020億元。2019年至2022年,我國液冷數(shù)據(jù)中心市場規(guī)模分別為36.9億元、49.5億元、68.3億元、100.5億元,預(yù)計2022 年至2027年CAGR達(dá)到59%。
與此同時國內(nèi)三大電信運(yùn)營商也積極起到行業(yè)帶頭作用, 支持液冷技術(shù)的成熟與發(fā)展。根據(jù)中國移動、中國電信、中國聯(lián)通聯(lián)合發(fā)布的《電 信運(yùn)營商液冷技術(shù)白皮書》,三家運(yùn)營商計劃2024年新建數(shù)據(jù)中心項目中,10%規(guī)模試點(diǎn)液冷技術(shù),到2025年及以后,超過50%項目規(guī)模應(yīng)用液冷技術(shù)。
圖9.冷板與浸沒市場規(guī)模對比(來源:中國液冷數(shù)據(jù)中心發(fā)展白皮書)
根據(jù)“”對于冷板式和浸沒式液冷數(shù)據(jù)中心供應(yīng)商進(jìn)行了調(diào)研,基于調(diào)研結(jié)果對未來5年中國兩類液冷數(shù)據(jù)中心發(fā)展趨勢進(jìn)行分析,得出的結(jié)論如上表。保守來看,2025年中國冷板式液冷數(shù)據(jù)中心市場規(guī)模將達(dá)到757.1億元,浸沒式為526.1億元;樂觀來看,2025 年中國冷板式液冷數(shù)據(jù)中心市場規(guī)模將達(dá)到784.9億元,浸沒式為545.4億元。其中浸沒式液冷數(shù)據(jù)中心憑借其優(yōu)良的制冷效果,市場份額增長速度較快。 參考資料
關(guān)于我們 北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭,UQD系列液冷快速接頭、EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)和集成服務(wù)。在國家數(shù)字經(jīng)濟(jì)、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點(diǎn),公司聚焦組建高素質(zhì)、經(jīng)驗(yàn)豐富的液冷工程師團(tuán)隊,為客戶提供卓越的工程設(shè)計和強(qiáng)大的客戶服務(wù)。 公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。
|
|