數(shù)據(jù)中心液冷技術(shù)發(fā)展趨勢與分析
原創(chuàng) 高山淵 CDCC 2023-12-15 12:14 發(fā)表于北京
摘要
近日,在由CDCC主辦的第11屆數(shù)據(jù)中心標(biāo)準(zhǔn)大會上,CDCC數(shù)據(jù)中心液冷技術(shù)研究員高山淵先生發(fā)表了主題為《數(shù)據(jù)中心液冷技術(shù)發(fā)展趨勢與分析》的演講,根據(jù)演講內(nèi)容整理下文,供數(shù)據(jù)中心行業(yè)內(nèi)的廣大讀者參考。
本次分享內(nèi)容主要包括四個部分:一是講數(shù)據(jù)中心為什么需要液冷?二是為什么現(xiàn)在液冷會成為一個趨勢?三是現(xiàn)狀與挑戰(zhàn)。最后是關(guān)于未來的展望。
01 數(shù)據(jù)中心為什么需要液冷?
數(shù)據(jù)中心作為基礎(chǔ)設(shè)施越來越重要,什么樣的基礎(chǔ)設(shè)施能夠保證社會經(jīng)濟高速發(fā)展,實際是今天我們做數(shù)據(jù)中心基礎(chǔ)設(shè)施的人面臨的一個最大挑戰(zhàn)。如果把數(shù)據(jù)中心需要的散熱能力和人做一個類比,人作為萬物之靈長能從自然界脫穎而出,成為主宰這個地球的生物,有很多的因素造成。包括有聰明的大腦、直立行走的形態(tài),還有不被關(guān)注到的能力,就是我們擁有地球上所有生物里面最強大的散熱能力。這個散熱能力體現(xiàn)在哪些方面呢?我們做一個類比,奔跑最快的動物一般說是獵豹,時速達到110-120公里的速度。但是,獵豹這個速度只能維持幾十秒時間,之后它會因為整個身體熱量累積就會降速,人的爆發(fā)力沒有這么好,但是持續(xù)巡航能力非常強。
剛過去的季節(jié)正好是全國很多地方舉辦馬拉松大賽的黃金季節(jié),為什么選擇在秋季呢?其中一個很大的因素是,自然環(huán)境氣溫比較舒適,人在奔跑過程中產(chǎn)生很多的熱量可以及時散發(fā)掉。一般經(jīng)過專業(yè)訓(xùn)練的運動員他們追求兩個小時跑完馬拉松,大眾跑者需要三個、四個、五個小時,可以擁有這么長時間的持續(xù)巡航能力,保持穩(wěn)定的功率輸出,這對于人體長期的身體健康非常重要。
再比如,我們在思考的時候,經(jīng)常覺得會頭腦發(fā)熱,頭腦一熱就直流汗,腦袋作為人體最重要的思考器官,它的功率密度最高,雖然只有區(qū)區(qū)24W,但人體配備了非常多的相關(guān)散熱手段,比如有發(fā)達的汗腺、頸部有很多血管,這些起到很重要的散熱作用,是保證大腦穩(wěn)定工作的基礎(chǔ)環(huán)境。
對應(yīng)數(shù)據(jù)中心來說,具有類似的道理。我們選擇數(shù)據(jù)中心建設(shè)的時候,肯定希望找一個氣候適宜的地方去建數(shù)據(jù)中心,讓PUE更優(yōu)一些。散熱技術(shù)選擇自然風(fēng)冷,今天功率的增大考慮用液冷技術(shù)來高效散熱。人如果在很熱環(huán)境里會吹空調(diào)、扇扇子,如果還不行可能去沖個澡,有人喜歡噴淋冷水澡,有人喜歡泡澡,這些都是很好的散熱方式,這和數(shù)據(jù)中心的散熱很類似。
人體很重要散熱的配套循環(huán),核心是滿足大腦散熱要求。大腦工作的范圍要求非常窄,人正常體溫36度多,37多就頭暈?zāi)X脹,思考遲鈍了,小孩發(fā)燒超過38度,39度,如果不及時降溫處理就會落下終身殘疾。人的大腦適應(yīng)范圍非常窄,數(shù)據(jù)中心同樣,適應(yīng)范圍也是非常窄。我們平常風(fēng)冷環(huán)境,20多度進風(fēng)到28度就是高溫服務(wù)器了,怎么樣保證IT設(shè)備,特別是高功率芯片合適的工作溫度,讓它像大腦一樣高速運轉(zhuǎn),又不因為過熱導(dǎo)致性能下降。
所以,討論數(shù)據(jù)中心液冷的時候更多的是我們怎么把同樣優(yōu)秀的散熱能力給到核心部件,也就是高功率的CPU、GPU這些部件,是以IT設(shè)備為主的。這個圖上所謂的內(nèi)循環(huán)的部分是核心,是要解決的難點。
為什么需要液冷?傳統(tǒng)上大家覺得風(fēng)冷挺好,特別是數(shù)據(jù)中心行業(yè)的人做風(fēng)冷相關(guān)技術(shù),不管是做冷源還是做IT間的散熱技術(shù),做設(shè)計模擬各方面都非常熟悉,但是到了今天為什么從服務(wù)器的角度一定需要液冷,從三個方面來闡述。
一是服務(wù)的客戶需要。IT技術(shù)發(fā)展的需要已經(jīng)觸達了風(fēng)冷相關(guān)散熱技術(shù)的瓶頸。今天的風(fēng)冷可以解決一定功率的單機散熱能力,對A100、H100幾百瓦GPU也可以去滿足散熱要求,再高就應(yīng)該用到液冷,為什么?CPU相對來講到了350W的節(jié)點,用風(fēng)冷還是可以解決的。對于GPU很多場景,明顯已經(jīng)知道風(fēng)冷舉步維艱,比如說最新的H100 GPU、AMD的MI300功耗都達到700W,雖然是可以用風(fēng)冷搞定的,但是會帶來很多其他問題:風(fēng)冷解決散熱的時候會付出很多努力,很大一部分會轉(zhuǎn)化成散熱上的功耗,這個散熱功耗會占多大呢?一般來講在傳統(tǒng)CPU服務(wù)器里大概占10%,在GPU服務(wù)器里面散熱功耗大概占到30%。也就是說,數(shù)據(jù)中心好不容易把PUE從1.5降到1.3、1.2、1.1,但是對不起,GPU上來了,一下子占了30%,省的能耗全被它的散熱消耗掉了,工作成效就大打折扣。
可以看看英偉達得出的結(jié)論,A100、H100用液冷能耗降低30%,整個機構(gòu)里面散熱部分把30%能耗省掉了。反過來講,如果有了多30%的能耗,是不是可以提供多30%的算力出來呢?這是一個很有意思的話題。
二是數(shù)據(jù)中心節(jié)能需要。首先對于企業(yè)來講,低PUE意味著更低的運維成本,同時低的PUE在符合國家要求的基礎(chǔ)上意味著整個在能耗指標(biāo)獲取,電力資源獲取,被充分利用方面有非常大的優(yōu)勢。簡單的例子,如果在很多南方的地方,電費加上整個PUE,比如說今天優(yōu)化得很好,1.3或1.2多,非常優(yōu)秀,努力做到了這樣一個值。但是這意味著去做數(shù)據(jù)中心的時候就要有30%的電力用到散熱上,對IT來講就是有30%用不到,如果我們能夠把PUE降到1.1,意味著可以的多出20%電力或者能耗指標(biāo),給到IT去用。不管是對終端客戶自建自用,還是數(shù)據(jù)中心行業(yè)服務(wù)商,都意味著更高的產(chǎn)出比,這是非常大的提升。
三是國家政策要求。這里不詳述。技術(shù)是核心驅(qū)動力,節(jié)能對企業(yè)意味著更低運維成本,更高資源利用率,對國家要求也能滿足,項目可以去開展。
02 為什么現(xiàn)在液冷成為趨勢?
為什么現(xiàn)在正是需要液冷的時候?現(xiàn)在這個時間節(jié)點大家覺得液冷特別熱,今年最熱的是ChatGPT大模型,很多企業(yè)推出大模型,每家企業(yè)最后都預(yù)測一件事,AI會成為未來創(chuàng)新的平臺。NV說今天處于AI的Iphone時刻,就是手機智能化前沿的那么一個時間點,今天的AI時間點和Iphone誕生的時間點一樣,我們所有的應(yīng)用和場景可能都會因為AI的出現(xiàn)被重構(gòu)。華為說AI for All,第四范式說以數(shù)據(jù)密集型計算探知未來,阿里云說AI大模型將成為云計算的第三次浪潮。
今天很多人或多或少用到了AI,今天整個產(chǎn)業(yè)還是在探索AI未來會在哪些場景有應(yīng)用。對于未來大家有一個判斷,如果今天去訓(xùn)練用一倍的算力,未來AI產(chǎn)業(yè)成熟需要推理要用6倍算力完成整個AI產(chǎn)業(yè)的重構(gòu),這樣就導(dǎo)致今天大家已經(jīng)看到了大模型帶來的GPU熱,只是這個浪潮第一波小浪,后面還有大浪會到來。
我個人的判斷,AI今天正在從大模型研發(fā)熱到大模型大規(guī)模應(yīng)用的前沿時刻。為什么需要液冷,大家會講既然GPU 700W或者750W用風(fēng)冷可以搞定,那么浪費點能源也可以。我們把芯片用起來需要什么樣的過程?第一步肯定要解決芯片散熱的問題。
圖片
可以看到左邊是H100的照片,中間是AMD的MI300圖片。散熱片的厚度,大家有沒有人去關(guān)注過,散熱片配套帶來對整個管理運維復(fù)雜度的挑戰(zhàn)。H100的8卡機器是非常重的,可能有60%重量就在散熱片上,這都是一些挑戰(zhàn)。所以,今天700W能搞定,下一代做1000W的芯片能不能搞定,怎么去搞定,都是大家需要去討論的問題。
從芯片到整機,10.2kW服務(wù)器,整個機架散熱能力又是一個挑戰(zhàn),30kW搞定之后,整個密度就會受到比較大的影響,一個機架今天搞定10.2kW,加上交換機,整機柜2-45kW。單機8U左右,整個機柜空間占得滿滿,這樣的條件下整個空間利用率是不經(jīng)濟的。用液冷可以減重去噪音,很多時候機房人員最忍受不了的,最直觀可見的一個污染源就是噪音。有些服務(wù)器設(shè)計不好,單機噪音達到90分貝以上,這是什么概念?和人站在飛機后面聽到飛機起飛的聲音一樣,如果不戴防護措施可能會損傷聽力。
到了整機就要把它放到數(shù)據(jù)中心里面去,我們看到單機柜40kW需要這樣的能力。另外一個問題,有些人說數(shù)據(jù)中心沒有辦法做到那么高的功率密度,只能一個柜子做10kW最多了,當(dāng)然也可以。但帶來另一個挑戰(zhàn)是整個面積占了很多,并且大大增加了連接成本。我們知道今天去做高性能算力全部用IB的網(wǎng)絡(luò),后面纜線長度非常寶貴,多長1米要付出非常多的成本,選擇液冷可以大規(guī)模降低互聯(lián)的長度,包括把互聯(lián)用光轉(zhuǎn)化成用銅纜,可以大幅度降低支出。
03 現(xiàn)狀與挑戰(zhàn)
到了今天的場景,液冷有很多的流派,很多的廠商提供所謂的解決方案,但是每家提供的層次是不一樣的,有的人能夠提供系統(tǒng)的解決方案,包括從DC開始到冷卻液,到IT設(shè)備一整套方案。有些只能提供IT解決方案,對于冷板技術(shù)天生就應(yīng)該由服務(wù)器廠商提供一個系統(tǒng)解決方案,但是把DC的解決方案交給DC廠商去做就好了。對于浸沒式或者噴淋,天生需要完整的解決方案,才能讓產(chǎn)業(yè)落地。
企業(yè)要想真的去大規(guī)模部署液冷,實際它有一些動力,總結(jié)下來就是成本、發(fā)展的機會、合規(guī)。它要承擔(dān)的風(fēng)險更高一些,比如說穩(wěn)定性風(fēng)險,冷板會不會漏液,浸沒會不會腐蝕芯片,芯片可比數(shù)據(jù)中心貴多了。成本風(fēng)險,以前投的數(shù)據(jù)中心能不能繼續(xù)利用。遷移成本也非常高,CDCC正在努力制定液冷標(biāo)準(zhǔn),包括浸沒式還有冷板,整個標(biāo)準(zhǔn)出臺需要一定時間,需要大家共同參與。另外,包括可運維性、生態(tài)和技術(shù)支持等都是挑戰(zhàn)。因為時間關(guān)系,在此不進行贅述。
04 未來展望
關(guān)于未來展望,前面我講到了下一代的芯片,這一代是700W,下一代很可能會突破1000W,對1000W的散熱到底用什么技術(shù),這是各家廠商都要重點突破的一點。
可以看到,有很多人號稱提供了比如說對1000W的TDP支持的解決方案,包括單柜可以做到100kW的解決方案,還有冷板是不是能夠盡量多去覆蓋整個的散熱需求。傳統(tǒng)上大家覺得冷板處理掉60%、70%的散熱已經(jīng)非常好了,今天你還是要盡可能多用同一套技術(shù)去解決散熱需求,所以冷板的覆蓋面也是非常重要的。
再有,資源換性能。特別是在買不到最先進的計算芯片時候,怎么去解決同樣算力需求增長的客觀存在,可能需要我們用資源去換。包括兩個方面,一是更強大的散熱能力,通過增大功耗,增大散熱能力提高更大單芯片的能力。二是通過更多芯片堆疊解決整個集群算力的要求,資源換性能,或者散熱換性能。
這半年產(chǎn)業(yè)成熟度大幅度提升了,短期冷板肯定會迎來較快發(fā)展,中期我更看好浸沒式液冷。今天對數(shù)據(jù)中心來講,短期大家都會去考慮風(fēng)液混合的解決方案,未來可能會以液冷為主。
最后是規(guī)模。大家肯定會關(guān)注什么時候能像我說的那樣去長大,規(guī)模取決于你的應(yīng)用什么時候長大,今天只是訓(xùn)練熱,未來會是推理更熱。如果所有應(yīng)用最后都AI化之后,整個AI對于液冷的路徑就是從AI訓(xùn)練到AI推理,到最后所有的應(yīng)用可能都需要液冷。
電信運營商三年愿景,是非常好的一個行業(yè)標(biāo)桿,也給行業(yè)釋放了非常好的信號;ヂ(lián)網(wǎng)大廠都在各條路上積極探索。液冷已經(jīng)落地了很多場景,包括邊緣數(shù)據(jù)中心、5G通信基站已經(jīng)有非常多的成熟應(yīng)用,也會讓這個產(chǎn)業(yè)因為這些場景應(yīng)用快速成熟。
北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心行業(yè)簽約經(jīng)銷商 Danfoss Authorized Distributor,漢深專業(yè)提供丹佛斯流體管件在冷板式液冷和相變液冷的產(chǎn)品解決方案。冷板式液冷系統(tǒng)主要包括水冷板(water cold plate)、管道(tube)、 快換接頭(quick disconnect coupling)、分液器(Manifold)、冷卻液分配單元(CDU)與室外冷卻設(shè)備等組件。丹佛斯流體管件系列產(chǎn)品包括FD83接頭,UQD系列快速接頭,5400制冷劑接頭和EPDM軟管EHW194等。
北京漢深流體技術(shù)有限公司 Hansen Fluid
丹佛斯簽約中國經(jīng)銷商 Danfoss Authorized Distributor
地址:北京市朝陽區(qū)望京街10號望京SOHO塔1C座2115室
郵編:100102
電話:010-8428 2935 , 8428 3983 , 13910962635
手機:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://shanghaining.com.cn
E-mail:sales@cnmec.biz
|