|
|
2024年OCP全球峰會(huì)于10月15日至17日在加利福尼亞州圣何塞舉行,主題為“From Ideas to Impact”。此次峰會(huì)匯聚了全球領(lǐng)先的技術(shù)公司和行業(yè)專家,展示了在開(kāi)放計(jì)算項(xiàng)目推動(dòng)下數(shù)據(jù)中心硬件、AI基礎(chǔ)設(shè)施和高效能計(jì)算領(lǐng)域的最新創(chuàng)新成果。
1、本屆2024年全球開(kāi)放計(jì)算峰會(huì)OCP聚焦AI和數(shù)據(jù)中心發(fā)展 2024年OCP全球峰會(huì)以“From Ideas to Impact”為主題,展示了開(kāi)放計(jì)算項(xiàng)目通過(guò)開(kāi)源和開(kāi)放協(xié)作推動(dòng)數(shù)據(jù)中心硬件創(chuàng)新的成果。自2011年成立以來(lái),OCP專注于推動(dòng)數(shù)據(jù)中心、服務(wù)器、存儲(chǔ)設(shè)備等領(lǐng)域的進(jìn)步。今年,OCP繼續(xù)聚焦如何將技術(shù)理念轉(zhuǎn)化為實(shí)際應(yīng)用,推動(dòng)全球數(shù)據(jù)中心的效率、可持續(xù)性和可擴(kuò)展性。通過(guò)與全球社區(qū)的合作,OCP實(shí)現(xiàn)了從邊緣計(jì)算到AI和機(jī)器學(xué)習(xí)等新興技術(shù)的廣泛部署。
2、芯片巨頭推動(dòng)AI基礎(chǔ)設(shè)施的發(fā)展,英偉達(dá)公開(kāi)其Blackwell系列平臺(tái)設(shè)計(jì)。 英偉達(dá)在OCP峰會(huì)上公開(kāi)NVIDIA GB200 NVL72的基礎(chǔ)設(shè)計(jì),其結(jié)合了多項(xiàng)創(chuàng)新,如高密度計(jì)算托盤(pán)、液冷系統(tǒng)和增強(qiáng)的電力管理。為簡(jiǎn)化開(kāi)發(fā)流程,英偉達(dá)同時(shí)宣布了參與Blackwell系列的40家供應(yīng)鏈合作伙伴。AMD展示了Alveo UL3422加速卡和銳龍AI PRO處理器,重點(diǎn)提高交易執(zhí)行速度和AI處理性能。英特爾展示AI PC處理器和LLM解決方案,強(qiáng)調(diào)了開(kāi)放標(biāo)準(zhǔn)在創(chuàng)新中的重要性。MARVELL、Credo和Astera Labs則通過(guò)新一代CXL連接技術(shù)和高速互連技術(shù),推動(dòng)AI和云基礎(chǔ)設(shè)施的進(jìn)步,ARM通過(guò)開(kāi)源小芯片生態(tài)系統(tǒng)推動(dòng)處理器的定制化和創(chuàng)新。
3、領(lǐng)先硬件供應(yīng)商引領(lǐng)AI數(shù)據(jù)中心創(chuàng)新,立訊展示其核心零組件解決方案 1)AI服務(wù)器核心供應(yīng)商方面:①立訊技術(shù):在峰會(huì)上展示了其AI數(shù)據(jù)中心核心零組件解決方案,重點(diǎn)介紹了224G高速互連、熱管理和電源管理系統(tǒng),進(jìn)一步提高了數(shù)據(jù)中心的效率和散熱能力;②工業(yè)富聯(lián):旗下鴻佰科技展示NVIDIA HGX B200液冷AI加速器、GB200 NVL72與液冷CDU解決方案和最新超級(jí)運(yùn)算中心模型等產(chǎn)品,同為鴻海旗下的鴻騰精密科技展示最新的AI數(shù)據(jù)中心連接技術(shù)及浸沒(méi)式冷卻解決方案;③超微電腦:推出全新集成NVIDIA BlueField-3 DPU的全閃存Petascale JBOF超大規(guī)模存儲(chǔ)解決方案、液冷超級(jí)集群SuperClusters;④戴爾:發(fā)布了適用于高密度AI工作負(fù)載的機(jī)架級(jí)解決方案,如IR7000和PowerEdge服務(wù)器,專為大規(guī)模AI推理和訓(xùn)練而設(shè)計(jì)。 2)銅連接和高速互連技術(shù)領(lǐng)域:①安費(fèi)諾:展示了最新的液冷技術(shù)和400 Gbps高速電纜;②莫仕:展示了用于高效可擴(kuò)展數(shù)據(jù)中心的DC-MHS平臺(tái),提升了數(shù)據(jù)傳輸?shù)男屎涂蓴U(kuò)展性;③泰科:展示了224G的AdrenaLINE Catapult和Slingshot背板連接器,為AI和網(wǎng)絡(luò)應(yīng)用提供了卓越的傳輸性能。這些技術(shù)推動(dòng)數(shù)據(jù)中心在能效和散熱能力上的提升以支持未來(lái)的AI工作負(fù)載。
一、OCP峰會(huì)背景 2024OCP全球峰會(huì)于10月15日至17日在加利福尼亞州圣何塞舉行,以“從想法到影響”為主題,峰會(huì)將匯聚行業(yè)領(lǐng)袖、研究人員和創(chuàng)新者。 2024年OCP全球峰會(huì)的主題是“從想法到影響”。這一主題概括了開(kāi)放計(jì)算項(xiàng)目的核心變革之旅。今年的主題反映了OCP致力于推動(dòng)創(chuàng)新的承諾,這種創(chuàng)新超越了理論討論,轉(zhuǎn)化為現(xiàn)實(shí)世界的解決方案。隨著技術(shù)發(fā)展的加速和開(kāi)發(fā)周期的縮短,行業(yè)被迫迅速應(yīng)對(duì)新興趨勢(shì)和需求。通過(guò)全球社區(qū)的集體專業(yè)知識(shí),將遠(yuǎn)見(jiàn)卓識(shí)轉(zhuǎn)化為突破性的技術(shù),推動(dòng)數(shù)據(jù)中心行業(yè)的開(kāi)放性、效率、可持續(xù)性、可擴(kuò)展性和增長(zhǎng)。OCP專注于進(jìn)步的不懈追求以及OCP社區(qū)驅(qū)動(dòng)創(chuàng)新所能帶來(lái)的深遠(yuǎn)影響。 OCP峰會(huì)是匯聚開(kāi)放IT生態(tài)系統(tǒng)開(kāi)發(fā)中最具前瞻性思維的頂級(jí)活動(dòng)。該峰會(huì)為全球社區(qū)提供了一個(gè)獨(dú)特的平臺(tái),分享見(jiàn)解、促進(jìn)合作并展示開(kāi)放硬件和軟件的尖端進(jìn)展。OCP的影響范圍廣泛,涵蓋了整個(gè)數(shù)據(jù)中心生態(tài)系統(tǒng)——從存儲(chǔ)和網(wǎng)絡(luò)到諸如CXL和SONiC等新興技術(shù)。這一全面戰(zhàn)略確保了數(shù)據(jù)中心能夠適應(yīng)不斷變化的技術(shù)和業(yè)務(wù)需求。 1)OCP歷史:2011年,OCP成立,使命是將開(kāi)源和開(kāi)放協(xié)作的優(yōu)勢(shì)應(yīng)用于硬件,快速推動(dòng)數(shù)據(jù)中心及其網(wǎng)絡(luò)設(shè)備、通用服務(wù)器和GPU服務(wù)器、存儲(chǔ)設(shè)備及設(shè)備、可擴(kuò)展機(jī)架設(shè)計(jì)等方面的創(chuàng)新。OCP的協(xié)作模式不僅限于數(shù)據(jù)中心,還被應(yīng)用于推動(dòng)電信行業(yè)和EDGE基礎(chǔ)設(shè)施的發(fā)展。 OCP的核心是其由超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商組成的社區(qū),同時(shí)加入了電信和托管服務(wù)提供商以及企業(yè)IT用戶,他們與供應(yīng)商合作開(kāi)發(fā)開(kāi)源創(chuàng)新,這些創(chuàng)新一旦嵌入產(chǎn)品后,就能從云端到邊緣部署。OCP基金會(huì)負(fù)責(zé)促進(jìn)和服務(wù)OCP社區(qū),以滿足市場(chǎng)需求并塑造未來(lái),將超大規(guī)模驅(qū)動(dòng)的創(chuàng)新推廣到各個(gè)領(lǐng)域。通過(guò)開(kāi)源設(shè)計(jì)和最佳實(shí)踐,數(shù)據(jù)中心設(shè)施和IT設(shè)備嵌入OCP社區(qū)開(kāi)發(fā)的創(chuàng)新,以提高效率、實(shí)現(xiàn)大規(guī)模運(yùn)營(yíng)和可持續(xù)發(fā)展,從而滿足市場(chǎng)需求。塑造未來(lái)包括投資戰(zhàn)略性項(xiàng)目,為IT生態(tài)系統(tǒng)應(yīng)對(duì)重大變化做好準(zhǔn)備,例如人工智能(AI)和機(jī)器學(xué)習(xí)(ML)、光學(xué)技術(shù)、先進(jìn)的冷卻技術(shù)和可組合硅等。
二、OCP參與廠商動(dòng)態(tài)
1、NVIDIA:在OCP公開(kāi)Blackwell平臺(tái)設(shè)計(jì),以加速AI基礎(chǔ)設(shè)施創(chuàng)新 1)NVIDIA在OCP公開(kāi)NVIDIA GB200 NVL72設(shè)計(jì):10月16日,在美國(guó)加利福尼亞州舉行的OCP全球峰會(huì)上,NVIDIA宣布已把NVIDIA Blackwell加速計(jì)算平臺(tái)的一些基礎(chǔ)設(shè)計(jì)貢獻(xiàn)給OCP,并擴(kuò)大NVIDIA Spectrum-X對(duì) OCP 標(biāo)準(zhǔn)的支持,以推動(dòng)開(kāi)放、高效、可擴(kuò)展的數(shù)據(jù)中心技術(shù)的發(fā)展。 NVIDIA分享了NVIDIA GB200 NVL72系統(tǒng)電子機(jī)械設(shè)計(jì)中的關(guān)鍵部分,包括機(jī)架架構(gòu)、計(jì)算和交換機(jī)托盤(pán)的架構(gòu)、液冷和熱環(huán)境規(guī)范以及 NVIDIA NVLink?電纜盒容量,以支持OCP社區(qū),提高計(jì)算密度和網(wǎng)絡(luò)帶寬。此外NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)也增添了對(duì)OCP社區(qū)規(guī)范的支持,在基于OCP認(rèn)證設(shè)備的AI工廠,企業(yè)可以充分發(fā)揮出性能潛力,同時(shí)保證其軟件的一致性。 2)NVIDIA提供的設(shè)計(jì)修改亮點(diǎn):Rack reinforcements,為了在單個(gè)機(jī)架中高效容納18個(gè)計(jì)算托盤(pán)、9個(gè)交換機(jī)托盤(pán)和4個(gè) NVLink磁帶,以支持5000多根銅纜,NVIDIA對(duì)現(xiàn)有機(jī)架設(shè)計(jì)實(shí)施了幾項(xiàng)關(guān)鍵修改,調(diào)整可在機(jī)架內(nèi)支持1 RU外形尺寸的19英寸 EIA 設(shè)備,從而將 IO 布線的可用空間增加一倍并提高托盤(pán)密度。增加了超過(guò) 100 磅的鋼筋,顯著提高了機(jī)架的強(qiáng)度和穩(wěn)定性。結(jié)合后機(jī)架延長(zhǎng)件以保護(hù)電纜支架和歧管配件。引入盲插滑軌和鎖定功能,以促進(jìn)NVLink安裝、液體冷卻系統(tǒng)集成,使用盲插連接器簡(jiǎn)化維護(hù)程序。 高容量母線,為了滿足機(jī)架的高計(jì)算密度和增加的功率要求,為增強(qiáng)型高容量母線開(kāi)發(fā)了新的設(shè)計(jì)規(guī)范。升級(jí)后的母線保持了與現(xiàn)有 ORV3 相同的寬度,但具有更深的輪廓,顯著增加了其載流量。此增強(qiáng)功能可確保母線能夠有效地處理現(xiàn)代高性能計(jì)算環(huán)境的高功率需求,而無(wú)需在機(jī)架內(nèi)提供額外的水平空間。 NVLink Cartridge,為實(shí)現(xiàn)NVLink域中所有72個(gè)NVIDIA Blackwell GPU之間的高速通信,其中四個(gè)NVLink Cartridge垂直安裝在機(jī)架后部,可容納5000多根有源銅纜,提供130 TB/s和260 TB/s AllReduce帶寬的聚合All-to-All帶寬。 液冷板和浮動(dòng)盲孔配合,為有效管理機(jī)架所需的120 KW 冷卻能力,實(shí)施直接液體冷卻技術(shù)。開(kāi)發(fā)了一種增強(qiáng)的Blind Mate液體冷卻歧管設(shè)計(jì),能夠提供高效的冷卻。創(chuàng)造了一種新穎的浮動(dòng)盲插接盤(pán)連接,有效地將冷卻液分配到計(jì)算和開(kāi)關(guān)托盤(pán),顯著提高液體快速插拔接頭在機(jī)架中對(duì)齊和可靠插接的能力。 計(jì)算和交換機(jī)托架機(jī)械外形規(guī)格,為了適應(yīng)機(jī)架的高計(jì)算密度,引入了1RU液冷計(jì)算和交換機(jī)托盤(pán)外形尺寸。開(kāi)發(fā)了一種新的、更密集的DC-SCM設(shè)計(jì),比當(dāng)前標(biāo)準(zhǔn)小 10%。采用了更窄的母線連接器,以最大限度地利用可用的后面板空間。 3)新聯(lián)合NVIDIA GB200 NVL72參考架構(gòu):在 OCP 上,NVIDIA 宣布與 Vertiv 聯(lián)合推出的全新 GB200 NVL72 參考架構(gòu),Vertiv 是電源和冷卻技術(shù)的領(lǐng)導(dǎo)者,也是設(shè)計(jì)、構(gòu)建和服務(wù)高計(jì)算密度數(shù)據(jù)中心的專家。新的參考架構(gòu)將顯著縮短部署 NVIDIA Blackwell 平臺(tái)的 CSP 和數(shù)據(jù)中心的實(shí)施時(shí)間,使得數(shù)據(jù)中心無(wú)需為 GB200 NVL72 開(kāi)發(fā)自己的電源、冷卻和間距設(shè)計(jì)。通過(guò)利用Vertiv在節(jié)省空間的電源管理和節(jié)能冷卻技術(shù)方面的專業(yè)知識(shí),數(shù)據(jù)中心可以在全球范圍內(nèi)部署 7MW GB200 NVL72 集群,將實(shí)施時(shí)間縮短多達(dá) 50%,同時(shí)減少電源空間占用并提高冷卻能效。 4)數(shù)據(jù)中心的關(guān)鍵基礎(chǔ)設(shè)施:隨著全球從通用計(jì)算過(guò)渡到加速計(jì)算和 AI 計(jì)算,數(shù)據(jù)中心基礎(chǔ)設(shè)施正變得日益復(fù)雜。為了簡(jiǎn)化開(kāi)發(fā)流程,NVIDIA 正在與 40 多家全球電子制造商密切合作,以提供創(chuàng)建 AI 工廠的關(guān)鍵組件。 眾多合作伙伴正在 Blackwell 平臺(tái)上進(jìn)行創(chuàng)新和構(gòu)建,其中包括 Meta。Meta 計(jì)劃將其基于 GB200 NVL72 的 Catalina AI 機(jī)架架構(gòu)捐贈(zèng)給 OCP。為計(jì)算機(jī)制造商提供了靈活的選擇,使其能夠搭建出高計(jì)算密度系統(tǒng)并滿足數(shù)據(jù)中心日益增長(zhǎng)的性能和能效需求。 2、AMD:以纖薄尺寸電子交易加速卡擴(kuò)展 Alveo 產(chǎn)品組合,助力普適且具性價(jià)比的服務(wù)器部署 1)AMD Alveo UL3422:為交易商、做市商和金融機(jī)構(gòu)提供了一款針對(duì)機(jī)架空間和成本進(jìn)行優(yōu)化的纖薄型加速卡,旨在快速部署到各種服務(wù)器中。Alveo UL3422 加速卡由 AMD Virtex? Ultra Scale+? FPGA 提供支持,采用新穎的收發(fā)器架構(gòu),具備硬化且經(jīng)過(guò)優(yōu)化的網(wǎng)絡(luò)連接核,專為高速交易定制打造。可實(shí)現(xiàn)超低時(shí)延交易執(zhí)行,達(dá)到低于 3 納秒的 FPGA 收發(fā)器時(shí)延和突破性的“tick-to-trade”性能。 2)銳龍AI PRO 300系列處理器:賦能下一代商用PC,采用全新AMD “Zen 5”架構(gòu),適配Copilot+企業(yè)PC的商用處理器系列產(chǎn)品,通過(guò)XDNA 2架構(gòu)為集成的NPU提供動(dòng)力,擁有領(lǐng)先的50+ NPU TOPS AI處理能力,基于4nm工藝和創(chuàng)新的電源管理,提供了更長(zhǎng)的電池續(xù)航。 3)AMD EPYC 9005:采用“Zen 5”核心架構(gòu),兼容廣泛部署的SP5平臺(tái),可提供從8到192核心數(shù)量的廣泛配置,進(jìn)一步提高了性能和能效。64核的AMD EPYC 9575F為基于GPU驅(qū)動(dòng)而對(duì)CPU能力要求苛刻的AI解決方案量身定制。該處理器最高可提供5GHz頻率,從而滿足在嚴(yán)苛的AI工作負(fù)載中支持GPU持續(xù)提供所需數(shù)據(jù)。 3、英特爾:強(qiáng)調(diào)開(kāi)放標(biāo)準(zhǔn)在將創(chuàng)意轉(zhuǎn)化為技術(shù)方面的關(guān)鍵作用 1)首款A(yù)I PC臺(tái)式機(jī)處理器酷睿Ultra 200S:將AI PC功能擴(kuò)展至臺(tái)式機(jī)平臺(tái),桌面級(jí)AI PC。該處理器系列包括英特爾? 酷睿? Ultra 9 285K處理器等5款未鎖頻臺(tái)式機(jī)處理器,擁有最多8個(gè)全新的疾速性能核,以及最多16個(gè)全新的能效核,與上一代相比將多線程工作負(fù)載性能提升最高達(dá)14%。 2)LLM與企業(yè)數(shù)據(jù)知識(shí)庫(kù)連接:雖然基礎(chǔ)模型具有巨大潛力,但要為企業(yè)帶來(lái)最大價(jià)值,還必須與企業(yè)專屬和領(lǐng)域特定的數(shù)據(jù)相結(jié)合。通過(guò)RAG(檢索增強(qiáng)生成),英特爾致力于彌合企業(yè)數(shù)據(jù)與AI模型之間的差距,提升LLM(大語(yǔ)言模型)的輸出效果,并幫助企業(yè)根據(jù)其專有數(shù)據(jù)定制LLM,而無(wú)需重新訓(xùn)練或微調(diào)。 通過(guò)LLM與企業(yè)數(shù)據(jù)知識(shí)庫(kù)連接為企業(yè)提供實(shí)用且安全的數(shù)據(jù)管理方式,確保AI系統(tǒng)能夠高效地融入企業(yè)的日常運(yùn)營(yíng)。Intel AI for Enterprise RAG解決了企業(yè)在RAG部署過(guò)程中面臨的可擴(kuò)展性、易用性、TCO、安全性和開(kāi)放性挑戰(zhàn)。
4、立訊技術(shù):展示最新的AI數(shù)據(jù)中心核心零組件解決方案 立訊技術(shù)最新的AI數(shù)據(jù)中心核心零組件解決方案,展示了公司眾多的前沿技術(shù)與尖端產(chǎn)品,并且把它們集成在了Orv3標(biāo)準(zhǔn)機(jī)柜中,代表了立訊技術(shù)在數(shù)據(jù)中心領(lǐng)域多年深耕的結(jié)晶,它不僅僅是產(chǎn)品的展示,更是一次重大的技術(shù)理念創(chuàng)新,借鑒了數(shù)據(jù)中心資源池化的理念,以端到端功能鏈的全新視角,重新思考未來(lái)數(shù)據(jù)中心零組件的發(fā)展模式,可以從三個(gè)功能維度來(lái)看: 1)224G高速互連系統(tǒng): 2)冷板液冷系統(tǒng): ①Coldplate:冷板設(shè)計(jì)在效率與可靠性方面均超越行業(yè)標(biāo)準(zhǔn),標(biāo)準(zhǔn)化流程與精確數(shù)據(jù)控制確保了產(chǎn)品質(zhì)量的一致性與應(yīng)用性能的最優(yōu)化,為數(shù)據(jù)中心提供高效散熱解決方案; 3)大功率直流電源系統(tǒng): ①Busbar & Clip:直流母排通過(guò)型材繪制定制超大橫截面,滿足各種電流需求。表面采用鎳底鍍與厚銀鍍處理,降低了接觸電阻,確保了Clip插拔的穩(wěn)定可靠及耐久性,為數(shù)據(jù)中心提供穩(wěn)定可靠的電力供應(yīng); 5、工業(yè)富聯(lián):展示B200液冷AI加速器、GB200 NVL72與水對(duì)水CDU解決方案 工業(yè)富聯(lián)旗下鴻佰科技展示NVIDIA HGX B200液冷AI加速器、GB200 NVL72與水對(duì)水CDU解決方案和最新超級(jí)運(yùn)算中心模型等產(chǎn)品。工業(yè)富聯(lián)旗下鴻佰科技出席OCP,展示其全面集成的AI產(chǎn)品線,為未來(lái)AI數(shù)據(jù)中心賦能。鴻佰提供從服務(wù)器到機(jī)柜乃至數(shù)據(jù)中心集成的全面創(chuàng)新,以提升現(xiàn)代數(shù)據(jù)中心的能源效率和服務(wù)效能。鴻佰展示的NVIDIA HGX B200液冷AI加速器提供強(qiáng)大AI訓(xùn)練效能,可無(wú)縫完美整合至OCP ORv3機(jī)架中,并部署于客戶的數(shù)據(jù)中心。鴻佰還展出NVIDIA GB200 NVL72與水對(duì)水CDU解決方案。GB200 NVL72是專為兆級(jí)參數(shù)大語(yǔ)言模型訓(xùn)練和實(shí)時(shí)推論設(shè)計(jì)的液冷機(jī)柜,相當(dāng)于擁有72個(gè)NVLink連接的Blackwell Tensor 核心GPU的巨型GPU。此設(shè)計(jì)幫助企業(yè)及組織得以充分發(fā)揮AI潛能,推動(dòng)各領(lǐng)域創(chuàng)新應(yīng)用。而高效能水對(duì)水CDU解決方案則提供卓越冷卻能力,可支持多達(dá)10臺(tái)GB200 NVL72,為下一代AI數(shù)據(jù)中心的發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。此外,在現(xiàn)場(chǎng)還可以看到鴻佰的最新超級(jí)運(yùn)算中心模型,展望未來(lái)AI基礎(chǔ)設(shè)施的發(fā)展趨勢(shì)。該設(shè)施實(shí)際部署以GB200 NVL72叢集為主,規(guī)劃總計(jì)超過(guò)1000個(gè)GPU,旨在應(yīng)對(duì)未來(lái)最嚴(yán)苛的AI工作負(fù)載。這個(gè)中心專注于AI效能調(diào)校及優(yōu)化,充分彰顯鴻佰在推動(dòng)AI尖端創(chuàng)新方面的堅(jiān)定承諾。 同為鴻海旗下鴻騰精密科技展示最新的AI數(shù)據(jù)中心連接技術(shù)及浸沒(méi)式冷卻解決方案。鴻騰精密科技(FIT)在OCP Global Summit 2024展示最新的AI數(shù)據(jù)中心連接技術(shù)及浸沒(méi)式冷卻解決方案。鴻騰精密所展示的創(chuàng)新連接解決方案,包括定制化224G+ XPU/GPU 連接插槽、共同封裝銅纜及光纖架構(gòu)、ORV3電源線纜等。相關(guān)解決方案不僅可改善AI機(jī)柜信號(hào)完整性和優(yōu)化數(shù)據(jù)傳輸,同時(shí)也能有效整合先進(jìn)冷卻模塊的相關(guān)技術(shù)。除了AI連接解決方案之外,鴻騰精密也展示浸沒(méi)式冷卻IT平臺(tái)解決方案。
6、超微電腦:推出全新集成NVIDIA BlueField-3 DPU的全閃存Petascale JBOF超大規(guī)模存儲(chǔ)解決方案、液冷超級(jí)集群SuperClusters 推出全新千萬(wàn)億次JBOF全閃存存儲(chǔ)解決方案,集成NVIDIA BlueField-3 DPU 實(shí)現(xiàn)AI數(shù)據(jù)管道加速。該JBOF(Just a Bunch of Flash)系統(tǒng)在2U機(jī)箱中集成多達(dá)四個(gè)NVIDIA BlueField-3數(shù)據(jù)處理單元(DPU),以運(yùn)行軟件定義的存儲(chǔ)工作負(fù)載。每個(gè)BlueField-3 DPU都支持400Gb以太網(wǎng)或InfiniBand網(wǎng)絡(luò),并具備硬件加速能力,適用于處理諸如加密、壓縮和糾刪編碼等計(jì)算密集型存儲(chǔ)和網(wǎng)絡(luò)工作負(fù)載,以及擴(kuò)展AI存儲(chǔ)需求。該雙端口JBOF架構(gòu)采用了最先進(jìn)的主動(dòng)-主動(dòng)集群設(shè)計(jì),確保關(guān)鍵任務(wù)存儲(chǔ)應(yīng)用的縱向擴(kuò)展以及對(duì)象存儲(chǔ)和并行文件系統(tǒng)等橫向擴(kuò)展存儲(chǔ)的高可用性。Supermicro的JBOF解決方案結(jié)合了NVIDIA BlueField-3,將傳統(tǒng)的存儲(chǔ)CPU和內(nèi)存子系統(tǒng)替換為BlueField-3 DPU,并在DPU的16個(gè)Arm核心上運(yùn)行存儲(chǔ)應(yīng)用程序。除了存儲(chǔ)加速功能,如糾刪碼和解壓算法,BlueField-3還通過(guò)硬件支持RoCE(基于以太網(wǎng)的遠(yuǎn)程直接內(nèi)存訪問(wèn))、GPU直接存儲(chǔ)和GPU發(fā)起存儲(chǔ)來(lái)加速網(wǎng)絡(luò)性能。 Supermicro推出面向人工智能數(shù)據(jù)中心推出的液冷超級(jí)集群,采用NVIDIA GB200 NVL72和NVIDIA HGX B200系統(tǒng)。Supermicro 業(yè)界領(lǐng)先的端到端液冷解決方案由 NVIDIA GB200 NVL72 平臺(tái)提供支持,可在單個(gè)機(jī)架中實(shí)現(xiàn)百億億次計(jì)算,并已開(kāi)始向特定客戶提供樣品,以便在第四季度末全面生產(chǎn)。此外,最近宣布的 Supermicro X14 和 H14 4U 液冷系統(tǒng)和 10U 風(fēng)冷系統(tǒng)已準(zhǔn)備好用于 NVIDIA HGX B200 8-GPU系統(tǒng)。Supermicro 的液冷 SuperClusters 適用于基于 NVIDIA GB200 NVL72 平臺(tái)的系統(tǒng),采用新型先進(jìn)機(jī)架內(nèi)或行內(nèi)冷卻液分配單元 (CDU) 和專為計(jì)算托盤(pán)設(shè)計(jì)的定制冷板,該計(jì)算托盤(pán)在 1U 外形中容納兩個(gè) NVIDIA GB200 Grace Blackwell 超級(jí)芯片。Supermicro 的 NVIDIA GB200 NVL72 借助 Supermicro 的端到端液冷解決方案,在單個(gè)機(jī)架中提供百億億次 AI 計(jì)算能力。機(jī)架解決方案包含 72 個(gè) NVIDIA Blackwell GPU 和 32 個(gè) NVIDIA Grace CPU,通過(guò) NVIDIA 的第五代 NVLink 網(wǎng)絡(luò)互連。NVIDIA NVLink Switch 系統(tǒng)以極低的延遲實(shí)現(xiàn) 130 TB/s 的總 GPU 通信,從而提高 AI 和HPC工作負(fù)載的性能。此外,Supermicro還支持最近發(fā)布的NVIDIA GB200 NVL2平臺(tái),這是一款2U風(fēng)冷系統(tǒng),配備緊密耦合的兩個(gè)NVIDIA Blackwell GPU和兩個(gè)NVIDIA Grace CPU,適合輕松部署各種工作負(fù)載,例如大型LLM推理、RAG、數(shù)據(jù)處理和HPC應(yīng)用程序。
7、Marvell:展示3nm PCIe Gen 7加速基礎(chǔ)設(shè)施技術(shù) 1)Structera CXL設(shè)備產(chǎn)品線:在AI和云應(yīng)用程序中,通常需要比標(biāo)準(zhǔn)服務(wù)器提供的更多內(nèi)存容量和帶寬,這導(dǎo)致了性能低于預(yù)期、完成時(shí)間延長(zhǎng)及資源使用效率低下的問(wèn)題。為了解決這些挑戰(zhàn),Marvell推出了新的Structera CXL設(shè)備產(chǎn)品線,使數(shù)據(jù)中心運(yùn)營(yíng)商能夠以高效、經(jīng)濟(jì)的方式為服務(wù)器增加更多內(nèi)存和/或計(jì)算能力。Structera A CXL近內(nèi)存加速器將服務(wù)器級(jí)處理器內(nèi)核與多個(gè)內(nèi)存通道相結(jié)合,顯著提升深度學(xué)習(xí)或機(jī)器學(xué)習(xí)等高帶寬任務(wù)的內(nèi)存帶寬。 2)AI和云連接領(lǐng)域的DSP連接解決方案:AI的快速部署正在改變數(shù)據(jù)中心的網(wǎng)絡(luò)拓?fù)浜筒渴鸱绞,帶寬的指?shù)級(jí)增長(zhǎng)、計(jì)算集群規(guī)模的擴(kuò)大以及定制架構(gòu)和更快的升級(jí)周期,都在推動(dòng)AI網(wǎng)絡(luò)內(nèi)部對(duì)連接的多樣化需求;贒SP的連接解決方案在優(yōu)化連接方面發(fā)揮著關(guān)鍵作用,能夠根據(jù)應(yīng)用的規(guī)模和周期時(shí)間進(jìn)行部署。 3)3nm PCIe Gen 7:該技術(shù)的數(shù)據(jù)傳輸速度是PCIe Gen 5的兩倍,使得在加速服務(wù)器平臺(tái)、通用服務(wù)器、CXL系統(tǒng)和分散基礎(chǔ)設(shè)施內(nèi)的計(jì)算織物能夠持續(xù)擴(kuò)展。此外Marvell還展示了其加速基礎(chǔ)設(shè)施產(chǎn)品組合,包括Alaska 1.6T PAM4 DSPs、Alaska PCIe Gen 6重定時(shí)器和Gen 7 SerDes、COLORZ 800 ZR/ZR+模塊、Nova和Spica PAM4 DSP、Orion相干DSP以及Teralynx以太網(wǎng)交換機(jī)。
8、Credo:宣布推出新PCIe 6和PCIe 7重定時(shí)器以追求更高性能與更低成本 1)新PCIe 6和PCIe 7重定時(shí)器:基于Credo的串行器/解串器(SerDes)技術(shù)構(gòu)建,提供行業(yè)領(lǐng)先的性能和能效,同時(shí)構(gòu)建在比競(jìng)爭(zhēng)器件成本更低、更成熟的工藝節(jié)點(diǎn)上。隨著整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施市場(chǎng)數(shù)據(jù)速率和相應(yīng)帶寬需求的增加,該解決方案可以提高能源效率。Credo 展示PCIe 6/7具有線性接收光學(xué) (LRO) 功能的800G低于10W OSFP光模塊,可與51T交換機(jī)和標(biāo)準(zhǔn)DSP模塊互連。 2)現(xiàn)場(chǎng)演示PCIe和CXL互連:通過(guò)Credo OSFP-XD PCIe AEC連接到 XConn PCIe 5 交換機(jī)的AMD EPYC服務(wù)器,XConn交換機(jī)進(jìn)一步驅(qū)動(dòng)兩個(gè)NVIDIA H100 GPU機(jī)箱。使用MemVerge的Memory Machine X軟件演示機(jī)架級(jí) CXL2.0 共享內(nèi)存系統(tǒng),展示AMD EPYC 9005服務(wù)器通過(guò)Credo CXL AEC連接到XConn CXL交換機(jī)XConn CXL交換機(jī)連接到兩個(gè)裝滿 CXL 內(nèi)存的機(jī)箱——一個(gè)基于SMART Modular的CEM AIC外形尺寸,一個(gè)基于Micron的E3外形尺寸,使服務(wù)器能夠使用CXL.mem協(xié)議完全訪問(wèn)和共享 CXL 內(nèi)存。
9、Astera labs:強(qiáng)調(diào)連接性仍是人工智能需要改進(jìn)的關(guān)鍵領(lǐng)域 1)CXL Interconnect Fabric:為充分利用GPU的資源并釋放AI的全部潛力,必須建立強(qiáng)大的AI基礎(chǔ)設(shè)施連接系統(tǒng),而不僅僅是追求更快的速度和數(shù)據(jù)傳輸能力。能夠滿足AI應(yīng)用程序和需求的多樣性,加快AI平臺(tái)的開(kāi)發(fā)周期,CXL Interconnect Fabric提供深度系統(tǒng)可見(jiàn)性和診斷功能,最大限度地提高正常運(yùn)行時(shí)間和資源利用率。 2)Aries PCIe/CXL智能DSP重定時(shí)器:在所有主要的超大規(guī)模和人工智能平臺(tái)提供商中進(jìn)行了現(xiàn)場(chǎng)測(cè)試和廣泛部署,通過(guò)可靠的 3 倍擴(kuò)展解決 AI 和通用服務(wù)器中的高速 PCIe?/CXL? 信號(hào)完整性挑戰(zhàn),專為 AI 和云基礎(chǔ)設(shè)施而構(gòu)建,提供高性能、低功耗和無(wú)縫互操作性。
10、ARM:基于小芯片生態(tài)系統(tǒng)促進(jìn)多供應(yīng)商合作 Total Design小芯片生態(tài)系統(tǒng):ARM詳細(xì)介紹Total Design小芯片生態(tài)系統(tǒng)的最新進(jìn)展,展示如何通過(guò)開(kāi)源固件進(jìn)一步推動(dòng)定制芯片的發(fā)展。特別強(qiáng)調(diào)其Neoverse CSS的發(fā)展與開(kāi)源固件(如TF-A、SCP、MCP、EDK2和OpenBMC)的結(jié)合,這些構(gòu)建塊對(duì)于開(kāi)發(fā)定制的云原生處理器和AI加速器至關(guān)重要。深入探討開(kāi)源固件在快速變化的AI創(chuàng)新環(huán)境中的作用,展示AMI在OCP社區(qū)中的貢獻(xiàn),包括Boot、BMC和PRoT項(xiàng)目。
11、安費(fèi)諾展示最新液冷技術(shù)與400 Gbps高速連接電纜 1)液冷:Amphenol展示了OSFP1x8外殼和連接器上的液冷冷板技術(shù)演示,以及與Alphawave Semi合作的現(xiàn)場(chǎng)演示,展示EXAMAX2 ARK板對(duì)板背板接口運(yùn)行的真實(shí)112GbE PAM4流量,同時(shí)完全浸沒(méi)在冷卻液中;
12、Molex:為高效可擴(kuò)展的數(shù)據(jù)中心基礎(chǔ)設(shè)施創(chuàng)建提供創(chuàng)造性的設(shè)計(jì) 1)標(biāo)準(zhǔn)化效率與可拓展性的DC-MHS: 為優(yōu)化數(shù)據(jù)中心性能和適應(yīng)性DC-MHS提供了統(tǒng)一框架。DC-MHS通過(guò)為物理基礎(chǔ)設(shè)施組件制定協(xié)議,為模塊化、互操作性和適應(yīng)性強(qiáng)的數(shù)據(jù)中心奠定了基礎(chǔ)。該規(guī)范涵蓋了關(guān)鍵元素,如機(jī)架、電源分配單元和冷卻系統(tǒng)。 DC-MHS推進(jìn)的關(guān)鍵進(jìn)展之一是對(duì)PCIe Gen6的支持,隨著行業(yè)向更高的數(shù)據(jù)傳輸率和更大的帶寬發(fā)展,這一組件變得尤為重要。通過(guò)標(biāo)準(zhǔn)化物理基礎(chǔ)設(shè)施并確保無(wú)縫集成,DC-MHS使數(shù)據(jù)中心能夠充分利用PCIe Gen6的功能,這對(duì)于下一代應(yīng)用至關(guān)重要。這一重點(diǎn)不僅使數(shù)據(jù)中心能夠應(yīng)對(duì)當(dāng)前需求,還確保了未來(lái)創(chuàng)新的可擴(kuò)展性,鞏固了DC-MHS作為數(shù)據(jù)中心架構(gòu)演變中的基石地位。 M-XIO/PESTI:M-XIO/PESTI標(biāo)準(zhǔn)化了數(shù)據(jù)中心的外圍設(shè)備連接,解決了高速數(shù)據(jù)傳輸和信號(hào)完整性等挑戰(zhàn)。直接到接觸的端接策略消除了電纜組件中的電路板,使自動(dòng)化更具可重復(fù)性和可靠性,并實(shí)現(xiàn)了從系統(tǒng)內(nèi)任何地方到ASIC附近的直接連接。Molex的NearStack PCIe連接器系統(tǒng)提供了一種高性能解決方案,能夠滿足苛刻外圍應(yīng)用所需的帶寬和可靠性。該連接器的間距較小且接合高度較低,在系統(tǒng)內(nèi)占用最小空間,緩解了空間限制。 M-PIC:M-PIC致力于為主處理器模塊(HPM)創(chuàng)建一個(gè)統(tǒng)一的基礎(chǔ)設(shè)施連接模型,解決電力傳輸、信號(hào)完整性和空間限制等問(wèn)題。Molex的KickStart連接器系統(tǒng)提供了一種獨(dú)特的解決方案,結(jié)合了信號(hào)和電力,提供了具有緊湊、可靠設(shè)計(jì)的強(qiáng)大、可擴(kuò)展的解決方案。Molex的Micro-Fit+和Pico-Clasp連接器為HPM和機(jī)箱內(nèi)的各種電力和信號(hào)連接提供了多功能選項(xiàng)。作為一個(gè)一體化系統(tǒng),KickStart是第一個(gè)符合OCP標(biāo)準(zhǔn)的解決方案,將低速和高速信號(hào)以及電路電源集成在一個(gè)電纜組件中。 2)開(kāi)放加速器基礎(chǔ)設(shè)施:OAI框架旨在規(guī)范加速器平臺(tái),簡(jiǎn)化多種技術(shù)在數(shù)據(jù)中心的集成。通過(guò)建立通用基礎(chǔ)設(shè)施規(guī)范,包括通用主板和預(yù)定外形尺寸,OAI允許數(shù)據(jù)中心運(yùn)營(yíng)商無(wú)縫整合各種加速器技術(shù)。這種標(biāo)準(zhǔn)化鼓勵(lì)創(chuàng)新,降低開(kāi)發(fā)成本,并提高運(yùn)營(yíng)效率。除了硬件外,OAI還強(qiáng)調(diào)軟件兼容性,確保加速器能夠與現(xiàn)有操作系統(tǒng)無(wú)縫協(xié)作。OAI對(duì)加速器集成的全面方法支持異構(gòu)加速器應(yīng)用的部署,充分釋放AI、機(jī)器學(xué)習(xí)和高性能計(jì)算工作負(fù)載的潛力。 3)現(xiàn)代數(shù)據(jù)中心基礎(chǔ)ORV3:一種標(biāo)準(zhǔn)化平臺(tái),旨在提高數(shù)據(jù)中心的效率和可擴(kuò)展性。通過(guò)為機(jī)架、電源分配單元(PDU)和冷卻系統(tǒng)制定通用規(guī)范,ORV3幫助數(shù)據(jù)中心運(yùn)營(yíng)商構(gòu)建靈活且適應(yīng)性強(qiáng)的基礎(chǔ)設(shè)施。這種硬件的一致性有助于各種組件之間的互操作性,降低復(fù)雜性并加快部署速度。 ORV3著重于增強(qiáng)電源效率、改善氣流并簡(jiǎn)化機(jī)架環(huán)境中的電纜管理。通過(guò)預(yù)設(shè)的機(jī)架尺寸、電力傳輸和冷卻配置,ORV3使數(shù)據(jù)中心能夠?qū)崿F(xiàn)更高的服務(wù)器密度、更低的運(yùn)營(yíng)成本和整體性能的提升。
13、TE Connectivity:展出224G架構(gòu)、液冷、數(shù)據(jù)中心機(jī)架等高速連接解決方案
1)224G架構(gòu)賦能AI與網(wǎng)絡(luò):TE展示了電纜背板架構(gòu)加上OTB和近芯連接,采用224G AdrenaLINE Catapult近芯連接器和AdrenaLINE Slingshot電纜背板連接器(電纜對(duì)電纜和電纜對(duì)板),該演示由Marvell的224 Gbps DSP SerDes硅片驅(qū)動(dòng)。
14、SK Hynix:展示包括HBM3E等在內(nèi)的領(lǐng)先AI和數(shù)據(jù)中心內(nèi)存產(chǎn)品 SK Hynix在2024年OCP全球峰會(huì)上展示其領(lǐng)先的AI和數(shù)據(jù)中心內(nèi)存產(chǎn)品,包括HBM3E、CXL Memory Module(CMM)、DDR5 RDIMM和MCR DIMM服務(wù)器DRAM以及企業(yè)級(jí)SSD(eSSDs)。推動(dòng)AI內(nèi)存和存儲(chǔ)解決方案方面的創(chuàng)新以及AI和數(shù)據(jù)中心運(yùn)營(yíng)的轉(zhuǎn)型。
15、Hyve Solutions:推出先進(jìn)網(wǎng)絡(luò)交換機(jī)和Orion產(chǎn)品線,加速AI部署 1)先進(jìn)網(wǎng)絡(luò)交換機(jī):部署在加速機(jī)架級(jí)AI,以滿足對(duì)高性能AI工作負(fù)載的快速增長(zhǎng)需求,交換機(jī)集成Broadcom的Tomahawk? 5系列51.2 Tb/s設(shè)備,能夠?qū)⒖蛻籼囟ǖ男枨蟾咝У丶傻疆a(chǎn)品中,幫助組織更快、更有效地部署AI技術(shù)。 16、ASUS展示基于NVIDIA和AMD的AI解決方案 1)先進(jìn)的AI服務(wù)器解決方案:方案分別基于NVIDIA Blackwell平臺(tái)和AMD EPYC 9005處理器以及Instinct MI325X加速器。基于NVIDIA技術(shù)的ESC AI POD是一個(gè)創(chuàng)新的機(jī)架解決方案,集成了NVIDIA GB200 NVL72系統(tǒng),提供高達(dá)36個(gè)NVIDIA Grace CPU和72個(gè)NVIDIA Blackwell GPU,旨在加速大型語(yǔ)言模型推理。此外,ASUS還展示了支持高達(dá)八個(gè)NVIDIA H200 Tensor Core GPU的8000A-E13P 4U服務(wù)器,針對(duì)AI進(jìn)行了優(yōu)化。 16、LITEON:推出NVIDIA驅(qū)動(dòng)的AI云服務(wù)器機(jī)架解決方案 集成AI云服務(wù)器機(jī)架解決方案:方案融合了高性能電源、全面液冷系統(tǒng)、集成機(jī)械設(shè)計(jì)、智能電源管理軟件和軟硬件系統(tǒng)集成五大關(guān)鍵技術(shù)。提升數(shù)據(jù)中心在AI時(shí)代的高性能計(jì)算、能效管理和冷卻性能,助力客戶實(shí)現(xiàn)低碳綠色數(shù)據(jù)中心的能源管理目標(biāo)。LITEON的液冷解決方案顯著提高冷卻效率,降低能源和碳足跡消耗。同時(shí)LITEON展示了集成機(jī)柜電源系統(tǒng)和解決方案,提供97.5%的高密度電源轉(zhuǎn)換效率,滿足AI服務(wù)器的高性能計(jì)算應(yīng)用需求,并配備智能電源管理系統(tǒng),實(shí)現(xiàn)數(shù)字管理和遠(yuǎn)程實(shí)時(shí)監(jiān)控。
17、戴爾:推出為AI設(shè)計(jì)的全新機(jī)架級(jí)解決方案IR7000、PowerEdge M7725和XE9712 戴爾宣布推出專為節(jié)能、密集計(jì)算和大規(guī)模人工智能而設(shè)計(jì)的全新機(jī)架級(jí)解決方案IR7000、PowerEdge M7725和XE9712。戴爾的集成機(jī)架可擴(kuò)展系統(tǒng)IRSS符合開(kāi)放計(jì)算項(xiàng)目的機(jī)架標(biāo)準(zhǔn),并通過(guò)增強(qiáng)的能源效率和可擴(kuò)展性支持?jǐn)?shù)據(jù)中心運(yùn)營(yíng)。IR7000(Integrated Rack 7000)是一款基于21英寸Open Rack Version 3(Orv3)的機(jī)架基礎(chǔ)設(shè)施,具有密集計(jì)算和液體冷卻功能,適用于高TDP GPU和CPU。在ORV3之前,直接液體冷卻(DLC)歧管連接是專有的,當(dāng)嘗試在單個(gè)機(jī)架中添加具有不同DLC OEM的服務(wù)器時(shí),它們不兼容。Del的下一代快速連接模塊化基礎(chǔ)設(shè)施為訓(xùn)練大型AI模型的高性能工作負(fù)載確定了未來(lái)的方向。PowerEdge M7725專為密集計(jì)算而設(shè)計(jì),支持兩個(gè)AMD EPYC第5代處理器,與前幾代處理器相比,可為高性能計(jì)算提供高37%的每時(shí)鐘指令數(shù)。單個(gè)IR7000可容納72個(gè)M7725服務(wù)器節(jié)點(diǎn),每個(gè)機(jī)架可提供多達(dá)27000個(gè)內(nèi)核。M7725通過(guò)前置IO以及無(wú)線電源和DLC連接提供了更好的可維護(hù)性。配備IR7000機(jī)架的M7725通過(guò)戴爾獨(dú)有的后門(mén)熱量捕獲技術(shù)實(shí)現(xiàn)了接近100%熱量捕獲能力。 PowerEdge XE9712通過(guò)NVIDIA GB200 NVL72 解決方案擴(kuò)展了Dell AI Factory。在配備8路HGX GPU的XE9680成功的基礎(chǔ)上,XE9712提供了更快的LLM性能,72個(gè)GPU作為一個(gè)GPU運(yùn)行在單個(gè)機(jī)架中,將大規(guī)模部署為超級(jí)POD,機(jī)架之間具有完整的網(wǎng)絡(luò)連接,并由Dell的turnkey機(jī)架規(guī)模部署服務(wù)、供應(yīng)鏈和物流提供支持。
18、Meta:展示面向AI基礎(chǔ)設(shè)施的開(kāi)放式架構(gòu)Catalina
Meta展示面向AI基礎(chǔ)設(shè)施的開(kāi)放式架構(gòu)Catalina 等產(chǎn)品。Meta宣布即將發(fā)布Catalina,這是專為AI工作負(fù)載設(shè)計(jì)的全新高性能機(jī)架。Catalina基于NVIDIA Blackwell平臺(tái)全機(jī)架解決方案,重點(diǎn)關(guān)注模塊化和靈活性。它旨在支持最新的NVIDIA GB200 Grace Blackwell超級(jí)芯片。借助Catalina,Meta推出了Orv3,這是一款高功率機(jī)架,能夠支持高達(dá)140kW的功率。完整的解決方案采用液體冷卻,由支持計(jì)算托盤(pán)、交換機(jī)托盤(pán)、Orv3 HPR、Wedge 400結(jié)構(gòu)交換機(jī)、管理交換機(jī)、電池備用單元和機(jī)架管理控制器的電源架組成。此外,Meta擴(kuò)展了Grand Teton平臺(tái)以支持AMD Instinct MI300X,以及展示下一代 AI 集群提供的新型分解式調(diào)度結(jié)構(gòu)。
|
|