|
|
報告連載 | 液冷實踐 益企研究院倡導全棧數(shù)據(jù)中心理念落地(一) 最近,業(yè)界首個以算網(wǎng)融合為核心的多元算力研究報告《算力經(jīng)濟時代·2023新型算力中心調(diào)研報告》出版,我們將對報告內(nèi)容開啟連載模式。 ? 報告連載 | 節(jié)能減排新實踐 重構(gòu)排碳之源 隨著中國互聯(lián)網(wǎng)、云計算的發(fā)展,超大規(guī)模數(shù)據(jù)中心應用的體量增加,數(shù)據(jù)中心的建設理念發(fā)生變化,最典型的是數(shù)據(jù)中心的建設與IT 設備結(jié)合更緊密。大型互聯(lián)網(wǎng)公司對數(shù)據(jù)中心行業(yè)的改變也是真正從機房建設,到 IT 設備的設計,再到上層的應用程序,將產(chǎn)品技術與應用貫穿了數(shù)據(jù)中心的全流程,將數(shù)據(jù)中心基礎設施與 IT 基礎架構(gòu)作為整體優(yōu)化。為了更快的滿足業(yè)務需求,提高數(shù)據(jù)中心能效,大型互聯(lián)網(wǎng)公司將液冷技術規(guī)模應用在數(shù)據(jù)中心,繼而促進了價值鏈重構(gòu)和產(chǎn)業(yè)生態(tài)演化。 為此,益企研究院提出并完善“全棧數(shù)據(jù)中心”理念。全棧數(shù)據(jù)中心是縱貫 IT 基礎架構(gòu)與數(shù)據(jù)中心基礎設施,把芯片、計算、存儲、網(wǎng)絡等技術和數(shù)據(jù)中心風火水電作為一個整體看待;上層業(yè)務需求的變化會通過芯片、計算和存儲等 IT 設備傳導到網(wǎng)絡架構(gòu)層面,即數(shù)據(jù)中心作為基礎設施也會相應的產(chǎn)生自上而下的變化。這也意味著服務器等 IT 設備的設計和液冷等先進技術的應用,以業(yè)務的視角實現(xiàn)應用與技術聯(lián)動,以數(shù)據(jù)中心整體的視角將制冷、供電以及監(jiān)控運維實現(xiàn)垂直整合。 從 2018 年始,數(shù)字中國萬里行團隊見證了液冷技術在云數(shù)據(jù)中心的應用,并在《2018 年中國超大規(guī)模云數(shù)據(jù)中心考察報告》中加以介紹。 常見的數(shù)據(jù)中心液冷方式主要包括噴淋式、冷板式和浸沒式三種。 冷板式液冷相對成熟,雖然各家形態(tài)不同,但技術上差異不大。冷板式液冷是指采用液體作為傳熱工質(zhì)在冷板內(nèi)部流道流動,通過熱傳遞對熱源實現(xiàn)冷卻的非接觸液體冷卻技術。通過對 CPU 和內(nèi)存覆蓋冷板,液體直接帶走這兩個高發(fā)熱部件的熱量。液體在冷板內(nèi)流動把 CPU 和內(nèi)存的熱量帶走,自身溫度達到 45℃ , 之后經(jīng)過與數(shù)據(jù)中心冷卻水交換后降低到 35℃返回,繼續(xù)冷卻。液體主要有不導電、不結(jié)垢的去離子水或不導電、不腐蝕的特殊液體兩種。用戶可根據(jù)自身需求進行選擇,業(yè)界普遍認為前者更經(jīng)濟,而后者更安全。 冷板式液冷服務器對于目前的數(shù)據(jù)中心的架構(gòu)影響不大,不需要對機柜的形態(tài)進行大幅度的改變,具有低噪音,高能效以及低總體擁有成本(TCO)的特點,可帶來傳統(tǒng)風冷數(shù)據(jù)中心所不具備的優(yōu)勢,使得耗能可以大幅度下降,同時又給 CPU 和內(nèi)存提供了更好的工作環(huán)境和工作溫度。
浸沒式液冷總體方向比冷板式更進一步,給元器件提供更可靠和穩(wěn)定的工作溫度,并具有更高的能效。冷板式的服務器是的風冷和液冷混合,浸沒式則是可以完全去除空調(diào)的全液冷的數(shù)據(jù)中心。 浸沒式液冷把所有的 IT 設備所有器件浸泡在液體里。主要分為相變式液冷和單相浸沒液冷。
相變式液冷,采用沸點低、易揮發(fā)的液體作為冷媒,利用 CPU 等器件工作發(fā)熱使冷媒沸騰帶走熱量,制冷劑蒸汽在換熱器處冷凝,完成制冷循環(huán),可以把冷卻系統(tǒng)的能耗降到最低。如曙光研發(fā)的相變液冷方案,就可讓數(shù)據(jù)中心實現(xiàn)全地域全年自然冷卻。而從產(chǎn)品形態(tài)上來看,相變液冷產(chǎn)品還可分為缸式相變液冷方案,以及刀片式相變液冷技術方案。刀片式相變液冷方案,因為其具有更高的計算密度,更易維護性以及可按需靈活增減計算節(jié)點等優(yōu)勢。同時該方案對系統(tǒng)自動化供電、減壓等有諸多技術要求,目前國內(nèi)中科曙光實現(xiàn)了刀片式相變液冷方案的大規(guī)模部署。
單相式浸沒通過液體升溫帶走熱量,不需要發(fā)生相變,在整個過程中就可以把換熱設施和機柜實現(xiàn)分離,從而對換熱系統(tǒng)進行一定的冗余設置就可實現(xiàn)在線維護。兩種不同的設計方式也直接影響了維護方式。目前超算中心應用相變式的浸沒液冷較多,單相式浸沒液冷還更容易實現(xiàn)在線維護,適合通用型的云計算數(shù)據(jù)中心。
液冷技術的推廣應用,是全棧數(shù)據(jù)中心理念的最佳落地實踐。舉例來說,液冷就很適合通過整機柜(服務器)的形式交付。傳統(tǒng)上在數(shù)據(jù)中心,機柜是基礎設施團隊(風火水電、場地)與 IT 業(yè)務部門的分界線;A設施團隊通常不會關注機柜里產(chǎn)品技術的演進(比如服務器產(chǎn)品);IT 業(yè)務團隊也很少了解基礎設施的細節(jié);ヂ(lián)網(wǎng)和云計算公司較多把機柜和服務器等 IT 設備做一個整體考慮。比如說阿里、騰訊、字節(jié),服務器保有量都是百萬臺量級,在這樣的規(guī)模下把服務器和機柜作為整體設計進行優(yōu)化,哪怕效率提升 1% 都可以節(jié)省一大筆支出。而液冷技術天然適合整機柜交付模式,畢竟液冷更適合集中部署,需要突破服務器與整機整機柜界邊界。 業(yè)務前置 模塊化交付
過去幾年,整機柜服務器的設計已經(jīng)跳出機柜本身,以數(shù)據(jù)中心乃至整個基礎設施的視角,與數(shù)據(jù)中心的風火水電基礎設施緊密協(xié)同,同時也能夠與上層的應用和業(yè)務結(jié)合。以京東云自研液冷整機柜服務器為例,基于業(yè)務的視角給應用端提供各種各樣的可能性。京東業(yè)務涉及零售、金融、物流等多領域的服務,所以在整機柜設計時聚焦承載高 CPU 算力的通用算力平臺,可以承載熱存儲和溫存儲的應用。對于冷存儲、異構(gòu)等應用,只是預留一些設計,以備未來有需要的時候可以開發(fā)。整機柜交付可提高交付效率、降低包材用量以及運輸所損耗的燃料,可大幅降低碳排放。
京東云自研液冷整機柜服務器盡量把業(yè)務功能涉及的模塊放在前面,比如存儲模塊、IO 模塊等業(yè)務功能前置,前出線使得維護更容易。而散熱和供電基礎設施后置,并預留支持能力,滿足 CPU 的散熱需求,風冷可以支持到 500 瓦,液冷可以支持到 800 瓦,甚至更高,如果需要更高功耗,可通過改變冷板設備等來實現(xiàn)?紤]數(shù)據(jù)中心生命周期很長,尤其是液冷技術的支持,預留三代平臺的支持,確保整機柜能夠在各種各樣的部署環(huán)境下使用,既可以在自建新機房使用,也可在液冷機房部署,支持各種各樣的設備類型和平臺。(未完待續(xù))
液冷實踐 益企研究院倡導全棧數(shù)據(jù)中心理念落地(二) 最近,業(yè)界首個以算網(wǎng)融合為核心的多元算力研究報告《算力經(jīng)濟時代·2023新型算力中心調(diào)研報告》出版,我們將對報告內(nèi)容開啟連載模式。
以全棧的視角 垂直整合
數(shù)據(jù)中心基礎設施層面的能耗主要來自于制冷和供電模塊的損耗。以典型冷凍水數(shù)據(jù)中心舉例,從內(nèi)到外包含有冷卻塔、冷卻水泵、冷水機組、冷凍水泵、空調(diào)等,都是用電設備;同樣數(shù)據(jù)中心供電架構(gòu)從市電到一級轉(zhuǎn)化再到 UPS 到機柜,經(jīng)歷幾次轉(zhuǎn)化后也會有供電損耗。 整機柜服務器可以整合供電,不用 PDU 或者很少用 PDU,只起轉(zhuǎn)接不起配電的作用,把電給到電源箱,電源箱到銅排(busbar)上配電,原來在服務器里的電源(PSU,供電單元)集中到電源箱里,成為機柜的一個組成部分。比如一個機柜 30 臺服務器,每臺服務器兩個電源就是 60 個,但是如果把電源集成到機柜上,就用不到 10 個電源,而且從 1+1 的冗余變成 N+1 的冗余——原來 30 個處于準浪費的狀態(tài),現(xiàn)在大大減少浪費,只提供必要的冗余就可以了;電源的數(shù)量少了,每個電源的功率比較大,負載也會比較高,電源在負載比較高的時候,轉(zhuǎn)換效率也比較好。 以數(shù)字中國萬里行團隊考察某云數(shù)據(jù)中心為例,機房里部署了 20 千瓦的液冷整機柜服務器 FusionPoD,園區(qū)內(nèi)還有相對獨立的小型液冷機房 FusionCell,由類似集裝箱體的供配電、機柜和制冷模塊各一組成。 在產(chǎn)品形態(tài)上,超聚變液冷整機柜服務器 FusionPoD 類似于數(shù)據(jù)中心一個 PoD,作為一個天然物理分區(qū),集成了供電、制冷、網(wǎng)絡,同時兼容各種各樣的服務器,比如為云場景打造的FusionPoD 600 系列有分布式備電,數(shù)據(jù)中心使用這個系列可以去掉 UPS,提升供電效率。 圖片 FusionPoD 的特點是集成度高,集成了液冷并兼容 1U 的節(jié)點設計。從算力密度來看,在 1U 里面最大可以支持 4 個 CPU,風冷服務器通常只部署一半的柜位空間,整機柜可以布滿,相對傳統(tǒng)的機架服務器算力密度可以提高 8 倍。FusionPoD 機柜是一個平臺,天生支持多元算力,機柜里的服務器可以集成計算型、計算存儲型包括異構(gòu)型服務器。FusionPoD 的另外一個特點是全部采用盲插,服務器背后從供液到供電、網(wǎng)絡連接,在機柜后方部署有三條總線稱之為全盲插,機柜內(nèi)不用連線,整個部署效率能大幅提升。 圖片 盲插的技術難題在于有可能在插拔的時候出現(xiàn)漏液,為了提高可靠性,F(xiàn)usionPoD 在盲插 Manifold 上做了一個防噴射結(jié)構(gòu),當用戶把節(jié)點插進來的時候,盲插 Manifold 上的防噴射結(jié)構(gòu)把它封住。同時機柜底下有漏液告警。 同樣,F(xiàn)usionPoD 選擇冷板式液冷技術路線可兼容現(xiàn)有的基礎設施部署,也可應用于新建液冷數(shù)據(jù)中心。采用混合液冷設計,對服務器里關鍵發(fā)熱器件比如 CPU、內(nèi)存、硬盤、電源等等做了可選的液冷適配并匹配了液冷后門(液冷門),液冷門也是來自于冷塔的供水,把機柜里所有的熱量通過液體帶走,去掉機房空調(diào)和冷機做到全液冷。FusionPoD 保留風扇給一些不太容易做冷板式液冷的小器件,液冷門也是選配,便于客戶靈活搭配,利舊現(xiàn)有的空調(diào)。在泄漏告警、隔離和處理上 FusionPoD 做了相應的設計,比如把節(jié)點做成天然能夠支持故障隔離的設計,無論通過它的圍擋結(jié)構(gòu)的設計還是導流設計,最后對接盲插 Manifold 的設計,當一個節(jié)點出現(xiàn)泄漏只會順著導流槽流往機柜積液盤,不會影響下一個節(jié)點,當然前文說的漏液告警監(jiān)控也屬標配。 在智能監(jiān)控環(huán)節(jié),F(xiàn)usionPoD 板內(nèi)的水晶繩的監(jiān)控通過服務機 BMC上傳到公司的 Fusion Director,機柜的漏液告警通過機柜頂上 RMU監(jiān)控模塊也上報給 Fusion Director,由于供水溫度很低液冷門出現(xiàn)冷凝水時,冷凝水的漏液告警到 Fusion Director 平臺。Fusion Director 能對所有的信息全部匯聚監(jiān)控進行統(tǒng)一處理。 產(chǎn)業(yè)生態(tài)融合演化 浸沒式液冷也成為一套復雜的系統(tǒng)工程,需要在可靠性、經(jīng)濟性和能效之間取得平衡,要解決散熱問題的同時解決冷卻液和系統(tǒng)中所有部件兼容性、IT 設備高速信號問題。而在系統(tǒng)設計層面,要兼顧服務器和機柜的設計、冷卻和監(jiān)控系統(tǒng)的可靠性,從這個意義來說,液冷不僅是制冷方式的改變,也可能變革數(shù)據(jù)中心生態(tài)。
阿里浸沒式液冷數(shù)據(jù)中心主要功耗集中在泵與室外散熱系統(tǒng),搭載阿里自研液冷監(jiān)控系統(tǒng),能夠全自動與負載率相匹配,始終保持系統(tǒng)高效運行。據(jù)官方介紹,磐久高性能計算一體機的單位面積算力可達 8PFLOPS/m(FP16 AI 算力),單位功耗算力可達 0.4PFLOPS/ 2kW。浸沒式液冷從原理上去除了室內(nèi)部分的空調(diào)風機和服務器風機雙側(cè)流體驅(qū)動系統(tǒng),徹底排除了空氣流動的需求,這樣 IT 故障率大幅下降減少維護量、系統(tǒng)熱交換次數(shù)下降、全自動調(diào)泵風機部件運行情況、自主故障預測與調(diào)優(yōu)預測運行,持續(xù)保持恒溫恒濕環(huán)境,有效屏蔽了外界絕大部分不利因素。 新一輪低碳技術帶來整體數(shù)據(jù)中心的技術變革,隨著液冷技術在云計算數(shù)據(jù)中心的應用,算力服務成本也將進一步降低,惠及更多終端用戶。云計算數(shù)據(jù)中心基于規(guī)模和應用需求的優(yōu)勢,對數(shù)據(jù)中心建設也有足夠的掌控力,將會整體數(shù)據(jù)中心的技術變革、價值鏈重構(gòu)和產(chǎn)業(yè)生態(tài)演化。IT 架構(gòu)和數(shù)據(jù)中心基礎設施冷卻也必將深度融合,構(gòu)建全棧數(shù)據(jù)中心成為新趨勢,產(chǎn)業(yè)鏈的垂直整合也會成為可能。風液冷也必將在很長一段時間之內(nèi)共存。 圖文來源網(wǎng)絡 如有侵權 請聯(lián)系我們刪除。
|
|