21世紀經(jīng)濟報道 | 智能計算需求飆升,液體冷卻迎爆發(fā)前夜
21CBH CD秦淮數(shù)據(jù)集團 2024年11月01日 12:00 新加坡
編者按:中國產(chǎn)業(yè)鏈當下能從服務器產(chǎn)品到液冷數(shù)據(jù)中心基礎(chǔ)設施建設等領(lǐng)域積累豐富經(jīng)驗,必將在整個液冷市場中發(fā)揮重要作用。
從2022年末ChatGPT發(fā)布至今,AI大模型的模型參數(shù)及技術(shù)架構(gòu)持續(xù)演進,由此對智能算力的需求也在飆升,相關(guān)基礎(chǔ)設施產(chǎn)業(yè)鏈都在面臨新的變化。
近日舉行的“2024智算時代數(shù)據(jù)中心技術(shù)引領(lǐng)與變革論壇”上,中國信通院云大所總工程師郭亮在演講中指出,算力中心發(fā)展經(jīng)歷了三個階段:在2000-2010年間,數(shù)據(jù)中心由三大通信運營商為主導;2010-2020年間,隨著數(shù)據(jù)中心需要更多專業(yè)技術(shù)能力加持,開始有第三方數(shù)據(jù)中心服務商加入;到現(xiàn)在的智算中心時代,數(shù)據(jù)中心主體開始呈現(xiàn)百花齊放的發(fā)展態(tài)勢,但同時也面臨尋找正確的發(fā)展路徑命題。
這不同于此前以CPU為主導的發(fā)展時代,在GPU為主導時代,包括底層芯片、基礎(chǔ)設施、網(wǎng)絡架構(gòu)、應用生態(tài)等方面發(fā)生了較大變化,產(chǎn)業(yè)鏈廠商亟需密切聯(lián)合,探路新技術(shù)路線下的演進方向。
秦淮數(shù)據(jù)張炳華對21世紀經(jīng)濟報道記者表示,目前國內(nèi)第三方數(shù)據(jù)中心服務商主要有兩種運營模式:超大規(guī)模定制模式和傳統(tǒng)通用零售模式。隨著AI大模型快速發(fā)展,對數(shù)據(jù)中心的需求走向更大規(guī)模AI集群,超大規(guī)模定制模式的優(yōu)勢凸顯。對此,秦淮數(shù)據(jù)升級發(fā)布“智算中心全棧解決方案2.0”,并聯(lián)合生態(tài)伙伴,共同啟動相關(guān)行業(yè)標準立項。
業(yè)內(nèi)認為,伴隨國內(nèi)智能計算生態(tài)的能力演進,并在此過程中推動產(chǎn)業(yè)走向標準化,將有望更好搶占AI浪潮下的新發(fā)展機遇。
需求激增
中國信息通信研究院發(fā)布的《算力中心冷板式液冷發(fā)展研究報告(2024年)》(下稱“報告”)顯示,截至2023年底,我國在用算力服務機架數(shù)已達到810萬標準機架,算力總規(guī)模達230EFLOPS。大型以上算力中心機架數(shù)量占算力中心總機架規(guī)模比重逐年上漲,部分超大型算力中心的平均單機柜功率已達20kW。由此可見,高功率密度、高算力的大型、超大型算力中心將是未來建設的重點。
這也意味著面對GPU為核心的智算中心基礎(chǔ)設施生態(tài)需要快速應變。
郭亮指出,目前智算中心的生態(tài)發(fā)展以英偉達CUDA生態(tài)一枝獨秀,在早期以CPU為核心的X86時代,雖然主導廠商數(shù)量也少,但芯片和應用、基礎(chǔ)設施之間沒有過強的耦合關(guān)系;到了AI時代,從底層芯片到網(wǎng)絡、框架、應用、基礎(chǔ)設施,彼此之間耦合度極高,由此導致一家廠商占據(jù)了80%~90%的極高份額。因此,行業(yè)企業(yè)如何找到自己的定位、圍繞算力基礎(chǔ)設施做更多開創(chuàng)性工作成為重要話題。
從基礎(chǔ)設施、網(wǎng)絡、計算、運營多個方面帶來機會同時也有挑戰(zhàn):如何將網(wǎng)絡與計算融合是當前被高度關(guān)注的話題;基礎(chǔ)設施主要包括電和冷,近期微軟、甲骨文相繼宣布要重啟關(guān)閉多年的核電站,就是基于電力緊俏而做出應對,冷即散熱方式從風冷轉(zhuǎn)向液冷;運營主要指目前政策層面推進的算力調(diào)度平臺建設。
技術(shù)和生態(tài)面臨較多轉(zhuǎn)向、需要產(chǎn)業(yè)鏈協(xié)同解決問題比較多,其中一個重點就包括散熱方式。
張炳華分析,在通用計算發(fā)展時期,CPU芯片功耗從2010年到2019近十年僅增長了一倍左右,單機柜功率從幾千瓦提升到十千瓦;但在智能計算發(fā)展時期,GPU卡的功耗持續(xù)翻倍,GPU服務器單機柜功率密度從原來的近十千瓦左右,提升到現(xiàn)在的一百三十多千瓦,提升了十幾倍。這讓功率密度、消耗電量等方面大幅提高,由此帶來新的散熱命題。
“在我們看來,數(shù)據(jù)中心在同樣條件下,如何保證芯片、服務器和網(wǎng)絡安全穩(wěn)定運行,根本問題是解決供電、制冷、遭遇故障后冗余等方面問題!彼m(xù)稱,這就需要從基礎(chǔ)設施系統(tǒng)架構(gòu)、設計方案,到產(chǎn)品化、預制化等方向推進,由此進行標準化落地,也更容易實現(xiàn)規(guī)模效益。
(中國液冷服務器市場規(guī)模和預測,圖源:IDC中國)
前述會議上,秦淮數(shù)據(jù)推出“磐石”模塊數(shù)據(jù)中心框架,包括高彈性建筑模型、“玄鐵”極簡供電架構(gòu)、“玄冰”極致冷卻架構(gòu)和“玄智”智能運維系統(tǒng),以支持高密及超高密智算場景。
其中,高彈性建筑模型的模塊架構(gòu)可靈活配置、分期預制,同時兼容CPU和GPU不同算力場景;“玄鐵”架構(gòu)將傳統(tǒng)配電全鏈路的10余個環(huán)節(jié)設備融合成變電站、柴發(fā)、中壓、低壓、電池、IT六大機電模塊,可分階段部署和彈性擴容;“玄冰”架構(gòu)包括風冷、液冷、風液兼容等模塊,以解決8kW-150kW區(qū)間所有功率密度的機柜冷卻難題。
張炳華對21世紀經(jīng)濟報道記者表示,采取通用方案來建設機房的基礎(chǔ)設施,從建筑封頂?shù)秸酵度脒\營期間會有3-6個月的準備期,用來安裝供電、冷卻等系統(tǒng)。目前采用液冷方案需要更長的建設周期、更長的服務器研發(fā)周期,為了盡快上線大模型,獲得比競對更高的算力,客戶會優(yōu)先選擇能夠更快部署的風冷方案。所以在風冷向液冷方案轉(zhuǎn)換的初期,鑒于風冷散熱方案成熟且通用,以及企業(yè)對采用新技術(shù)路線可能帶來的風險存在擔憂,大部分客戶缺乏積極主動選擇液冷方案的動力。
“目前頗受關(guān)注的冷板液冷方案也面臨如水質(zhì)、冷卻液泄露、微通道擁堵甚至腐蝕等問題,一旦設計方案不合理、建設質(zhì)量沒有保證、運維管理不當?shù),對業(yè)務運行來說會面臨更高的故障風險。但風冷散熱能力已達極限,無法適應未來高密度機柜的冷卻需求,因此,當下階段液冷小規(guī)模的嘗試和驗證一定要做,這是未來通向大規(guī)模使用場景的必經(jīng)階段!彼m(xù)稱。
需求驅(qū)動下,當前液冷技術(shù)已經(jīng)在快速滲透。調(diào)研機構(gòu)IDC統(tǒng)計顯示,中國液冷服務器市場在2024上半年繼續(xù)保持快速增長,市場規(guī)模達12.6億美元,同比增長98.3%,其中液冷解決方案仍以冷板式為主,占95%以上。根據(jù)調(diào)研機構(gòu)IDC的統(tǒng)計和預測,2023-2028年,中國液冷服務器市場年復合增長率將達到47.6%,2028年市場規(guī)模將達到102億美元。
液冷加速
張炳華對21世紀經(jīng)濟報道記者分析,從傳統(tǒng)風冷向液冷轉(zhuǎn)換過程中,面臨的本質(zhì)上并不是單一商業(yè)邏輯難題,更多源于當前液冷散熱生態(tài)不夠成熟。
例如服務器在液體中運行時,遇到一些液體會產(chǎn)生化學反應,這在過去行業(yè)并沒有積累足夠的應對經(jīng)驗,需要較長時間來對主要液體材料的兼容性和穩(wěn)定性進行驗證。但考慮到GPU成本偏高,且并不對浸沒式液冷方案承諾質(zhì)保,令廠商嘗試浸沒式液冷時有更多顧慮。
這與新技術(shù)在發(fā)展早期面臨的標準化、兼容性不足有關(guān)。但產(chǎn)業(yè)界已經(jīng)在驅(qū)動解決這一現(xiàn)狀。
前述《報告》分析,當前我國針對液冷技術(shù)的研究仍處于起步階段,液冷服務器的設計、運維、安防等方面的行業(yè)標準較為空缺,業(yè)內(nèi)尚未形成統(tǒng)一的技術(shù)標準,增高了產(chǎn)業(yè)發(fā)展壁壘。得益于政策支持與引導,液冷產(chǎn)業(yè)標準規(guī)范化迎來了快速發(fā)展。特別是冷板式液冷技術(shù)標準制定逐步朝向常態(tài)化、規(guī)范化邁進。特別是冷板式液冷技術(shù)標準制定逐步朝向常態(tài)化、規(guī)范化邁進。
目前市場上的液冷方案主要包括三類:冷板式液冷、浸沒式液冷、噴淋式液冷。張炳華認為,在多個液冷散熱方案中,冷板液冷相對更成熟、對現(xiàn)有服務器生態(tài)的改變更少,因此業(yè)界目前更側(cè)重于推進冷板液冷方案完善。
“如果要采用浸沒式液冷方案,對服務器網(wǎng)絡、電源等生態(tài)都要有較大改變。在液冷方案發(fā)展初期會不太具備規(guī)模效益。但冷板液冷方案可以同時適配GPU、CPU等主計算單元的能力和生態(tài)。相比之下,從風冷方案改為冷板液冷方案的難度更小!彼M一步指出。
IDC中國服務器市場研究經(jīng)理辛一認為,從全球范圍看,液冷方案目前在海外的應用尚不廣泛,只在一些頭部CSP(云服務商)的集群節(jié)點中有所應用。英偉達最新的Blackwell平臺預計在今年末或2025年初在全球范圍大量出貨,新平臺自身功耗較高,自然對液冷方案的應用起到促進作用。
“如果中國在此時機下,不論是服務器產(chǎn)品設計、制造、銷售和維護方面,還是液冷數(shù)據(jù)中心基礎(chǔ)設施建設等領(lǐng)域積累豐富經(jīng)驗,必將在整個液冷市場中發(fā)揮重要作用。同時,還需要產(chǎn)業(yè)相關(guān)組織、機構(gòu)、企業(yè)及合作伙伴,在液冷方案實際應用過程中精誠合作,共同制定適合液冷發(fā)展的行業(yè)或組織標準,加快促進產(chǎn)學研的高效融合!彼m(xù)稱。
前述論壇上,“冷板液冷系統(tǒng)全生命周期質(zhì)量控制規(guī)范系列行業(yè)標準”啟動立項,專家組同期成立。該系列標準將由中國信通院和秦淮數(shù)據(jù)牽頭,聯(lián)合數(shù)十家行業(yè)頭部企業(yè)共同編制。
張炳華告訴記者,目前國際上對于液冷散熱技術(shù)雖然沒有形成完整統(tǒng)一的標準,但并不意味著對液冷方案沒有技術(shù)要求。在這些要求逐漸完善后,才會形成標準定式。
此前對數(shù)據(jù)中心制定標準主要由互聯(lián)網(wǎng)廠商牽頭,但在智能計算發(fā)展需求下,服務器硬盤布局進行了重新設計,改變了既有生態(tài)模式。因此,現(xiàn)在需要產(chǎn)業(yè)鏈廠商共同參與完善標準制定,根據(jù)各自在產(chǎn)業(yè)鏈中的位置協(xié)同開發(fā),對市場發(fā)展也更具有引導作用。
“我們在制定標準指導規(guī)范時,既借鑒行業(yè)的基本原則,也參考了ODCC(開放數(shù)據(jù)中心委員會)的技術(shù)要求等方面考慮!彼m(xù)稱,秦淮數(shù)據(jù)希望通過參與ODCC、拉通更多產(chǎn)業(yè)鏈生態(tài)等方式,讓更多元的行業(yè)用戶共同參與完善早期標準定義過程。
集邦咨詢認為,隨著全球政府及監(jiān)管機構(gòu)對于ESG(環(huán)境、社會和公司治理)意識逐漸提升下,將加速帶動散熱方案由氣冷轉(zhuǎn)液冷形式發(fā)展,預期液冷方案滲透率逐年攀升,這將促使電源供應廠商、散熱業(yè)者及系統(tǒng)整合廠等競相投入AI液冷市場,形成新的產(chǎn)業(yè)競爭與合作態(tài)勢。
(作者:駱軼琪 編輯:張偉賢)
微信掃一掃
關(guān)注該公眾號
關(guān)于我們
北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭;液冷通用快速接頭UQD & UQDB;OCP ORV3盲插快換接頭BMQC;EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)。在國家數(shù)字經(jīng)濟、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點,公司聚焦組建高素質(zhì)、經(jīng)驗豐富的液冷工程師團隊,為客戶提供卓越的工程設計和強大的客戶服務。
公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。
未來公司發(fā)展規(guī)劃:數(shù)據(jù)中心液冷基礎(chǔ)設施解決方案廠家,具備冷量分配單元(CDU)、二次側(cè)管路(SFN)和Manifold的專業(yè)研發(fā)設計制造能力。
- 針對機架式服務器中Manifold/節(jié)點、CDU/主回路等應用場景,提供不同口徑及鎖緊方式的手動和全自動快速連接器。
- 針對高可用和高密度要求的刀片式機架,可提供帶浮動、自動校正不對中誤差的盲插連接器。以實現(xiàn)狹小空間的精準對接。
- 基于OCP標準全新打造的液冷通用快速接頭UQD & UQDB ;OCP ORV3盲插快換接頭BMQC , 支持全球范圍內(nèi)的大批量交付。
|