|
|
作為美國科技七巨頭之一的Meta在構(gòu)建AI集群上一直以來都很努力。除了大家熟知的Meta 大模型 Llama Meta外,隨著AI火熱加劇,Meta也在推動基礎(chǔ)設(shè)施的發(fā)展,以支持它不斷發(fā)展的人工智能工作負(fù)載。在今年的OCP 全球峰會上,Meta推出了一系列的開放式 AI創(chuàng)新 硬件,包括:Catalina,專為 AI 工作負(fù)載設(shè)計(jì)的全新高性能機(jī)架;Grand Teton 的擴(kuò)展,尖端 AI 平臺;以及新的高性能網(wǎng)絡(luò)解決方案。 Catalina :面向 AI 基礎(chǔ)設(shè)施的開放式架構(gòu) 構(gòu)建 AI 集群需要的不僅僅是 GPU。網(wǎng)絡(luò)和帶寬在確保集群性能方面發(fā)揮著重要作用。Meta的系統(tǒng)由緊密集成的 HPC 計(jì)算系統(tǒng)和獨(dú)立的高帶寬計(jì)算網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)連接Meta所有的 GPU 和特定領(lǐng)域的加速器。 在未來幾年中,Meta預(yù)計(jì)每個加速器的注入帶寬將達(dá)到每秒 1TB 的數(shù)量級,同時具有相同的標(biāo)準(zhǔn)化二分帶寬。與今天的網(wǎng)絡(luò)相比,這代表著一個數(shù)量級以上的增長!為了支持這一增長,這就需要一種高性能、多層、無阻塞的網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)可以利用現(xiàn)代擁塞控制在重負(fù)載下可預(yù)測地運(yùn)行。這將充分利用Meta的 AI 集群的強(qiáng)大功能,并確保它們在突破 AI 的極限時繼續(xù)發(fā)揮最佳性能。 OCP 全球峰會上發(fā)布的Catalina,是專為 AI 工作負(fù)載設(shè)計(jì)的全新高功率機(jī)架。Catalina 基于 NVIDIA Blackwell 平臺全機(jī)架解決方案,重點(diǎn)關(guān)注模塊化和靈活性。它旨在支持最新的NVIDIA GB200 Grace Blackwell 超級芯片,確保滿足現(xiàn)代 AI 基礎(chǔ)設(shè)施日益增長的需求。 GPU 不斷增長的功率需求意味著開放式機(jī)架解決方案需要支持更高的功率能力。通過Catalina,Meta推出了 Orv3,這是一款能夠支持高達(dá) 140kW 的高功率機(jī)架 (HPR)。完整的解決方案采用液體冷卻,由一個電源架組成,該電源架支持計(jì)算托盤、交換機(jī)托盤、Orv3 HPR、Wedge 400 結(jié)構(gòu)交換機(jī)、管理交換機(jī)、電池備用單元和機(jī)架管理控制器。 通過Catalina 的模塊化設(shè)計(jì)讓其他人能夠定制機(jī)架以滿足他們特定的 AI 工作負(fù)載,同時利用現(xiàn)有和新興的行業(yè)標(biāo)準(zhǔn)。
支持 AMD 加速器的Grand Teton 平臺 2022 年,Meta發(fā)布了下一代 AI 平臺 Grand Teton(Zion-EX 平臺的后續(xù)產(chǎn)品)。Grand Teton 的計(jì)算能力設(shè)計(jì)可滿足內(nèi)存帶寬受限型工作負(fù)載(例如 Meta 的深度學(xué)習(xí)推薦模型 (DLRM))以及計(jì)算受限型工作負(fù)載(例如內(nèi)容理解)的需求,F(xiàn)在,Meta擴(kuò)展了 Grand Teton 平臺以支持 AMD Instinct MI300X,并將向 OCP 貢獻(xiàn)此新版本。與前代產(chǎn)品一樣,此新版 Grand Teton 采用單一單片系統(tǒng)設(shè)計(jì),具有完全集成的電源、控制、計(jì)算和結(jié)構(gòu)接口。這種高水平的集成簡化了系統(tǒng)部署,可實(shí)現(xiàn)快速擴(kuò)展,并提高大規(guī)模 AI 推理工作負(fù)載的可靠性。 除了支持一系列加速器設(shè)計(jì)(現(xiàn)在包括 AMD Instinct MI300x)外,Grand Teton 還提供顯著更大的計(jì)算能力,允許在更大的權(quán)重集上更快地收斂。此外,還可通過擴(kuò)展內(nèi)存來在本地存儲和運(yùn)行更大的模型,并增加網(wǎng)絡(luò)帶寬以有效擴(kuò)大訓(xùn)練集群規(guī)模。
開放式分解調(diào)度結(jié)構(gòu) Meta為下一代 AI 集群提供的新型分解式調(diào)度結(jié)構(gòu) (DSF) 比現(xiàn)有的交換機(jī)具有多項(xiàng)優(yōu)勢。通過開放Meta的網(wǎng)絡(luò)結(jié)構(gòu),可以克服規(guī)模、組件供應(yīng)選項(xiàng)和功率密度方面的限制。DSF 由開放的 OCP-SAI 標(biāo)準(zhǔn)和 FBOSS(Meta 自己的用于控制網(wǎng)絡(luò)交換機(jī)的網(wǎng)絡(luò)操作系統(tǒng))提供支持。它還支持開放且標(biāo)準(zhǔn)的基于以太網(wǎng)的 RoCE 接口,可連接到來自多個不同供應(yīng)商(包括合作伙伴NVIDIA、Broadcom和 AMD)的多個 GPU 和 NICS 上的端點(diǎn)和加速器。 除了 DSF,Meta還開發(fā)并構(gòu)建了基于 Broadcom 和 Cisco ASIC 的新型 51T 結(jié)構(gòu)交換機(jī)Minipack3和Cisco8501. Meta 第三代 Minipack 交換機(jī)基于 Broadcom Tomahawk5 ASIC。 而Cisco 8501是基于Cisco Silicon One G200 ASIC 設(shè)計(jì),具有 64 個 OSFP 端口、128 個 400GE 無阻塞容量,向后兼容 200GE 和 100GE 標(biāo)準(zhǔn),配備 Meta 2x400G-FR4 OSFP 光學(xué)模塊。
Meta 與微軟:共同推動開放式創(chuàng)新 Meta 和Microsoft 在 OCP 中建立了長期合作伙伴關(guān)系,始于 2018 年為數(shù)據(jù)中心開發(fā)交換機(jī)抽象接口 (SAI)。多年來,兩者共同為開放加速器模塊 (OAM) 標(biāo)準(zhǔn)和 SSD 標(biāo)準(zhǔn)化等關(guān)鍵計(jì)劃做出了貢獻(xiàn),目前的合作重點(diǎn)是 Mount Diablo,這是一種新型分解式電源機(jī)架,一款尖端解決方案,具有可擴(kuò)展的 400 VDC 單元,可提高效率和可擴(kuò)展性。這種創(chuàng)新設(shè)計(jì)允許每個 IT 機(jī)架安裝更多 AI 加速器,從而顯著推進(jìn) AI 基礎(chǔ)設(shè)施。 不過這邊前腳剛說完長期合作,后腳就有點(diǎn)掛不住。據(jù)《信息報(bào)》周一報(bào)道,Meta Platforms 正在開發(fā)一款基于人工智能的搜索引擎,希望減少對Alphabet谷歌和微軟必應(yīng)的依賴。 人工智能搜索引擎領(lǐng)域正在升溫,ChatGPT制造商 OpenAI、谷歌和微軟都在爭奪這個快速發(fā)展的市場的主導(dǎo)地位。 據(jù)該報(bào)道援引一位參與該戰(zhàn)略的人士的話稱,Meta 的網(wǎng)絡(luò)爬蟲將為用戶提供有關(guān) Meta AI 上時事的對話式答案,Meta AI 是該公司在 WhatsApp、Instagram 和 Facebook 上的聊天機(jī)器人。
搭載NVIDIA最強(qiáng)AI芯片GB200的AI服務(wù)器近期陸續(xù)出貨,微軟、Meta等云端服務(wù)大廠不僅積極導(dǎo)入GB200,并擴(kuò)大搶買升級版的更高規(guī)NVL72機(jī)柜,鴻海為GB200 NVL72機(jī)柜獨(dú)家供應(yīng)商,近期訂單塞爆,業(yè)務(wù)大爆發(fā)。 GB200 NVL72機(jī)柜平均單價約300萬美元,比NVL36機(jī)柜平均售價180萬美元高逾66%,鴻海NVL72機(jī)柜訂單涌進(jìn),對營收、獲利都有顯著助力。
原本業(yè)界認(rèn)為,NVL36性價比就很不錯,出貨量看俏,近期卻出現(xiàn)CSP大廠擴(kuò)大搶買NVL72機(jī)柜的趨勢,甚至把NVL36逐步打入冷宮。 引領(lǐng)這波采購由NVL36轉(zhuǎn)向大舉購買NVL72機(jī)柜的CSP大廠,包括原本就是NVL72最大買家的微軟,如今包括Meta、亞馬遜AWS等也加入。 供應(yīng)鏈分析,CSP由NVL36轉(zhuǎn)向NVL72機(jī)柜,規(guī)格升級可以帶來更大效能,只要電力供應(yīng)充足,且數(shù)據(jù)中心基礎(chǔ)設(shè)施可以容納,現(xiàn)在客戶端采購NVL36架構(gòu)的意愿普遍不高,NVL72儼然成為主流,鴻海為NVL72獨(dú)家供應(yīng)商,接單爆滿。 因美系CSP客戶對GB200 AI服務(wù)器強(qiáng)勁需求,鴻海墨西哥廠有就近供應(yīng)優(yōu)勢,將躍升為第二大營收來源。 據(jù)悉,鴻海透露規(guī)劃在墨西哥打造全球最大的GB200伺服務(wù)器生產(chǎn)基地,就是因?yàn)镚B200 NVL72訂單強(qiáng)勁。 劉揚(yáng)偉指出,該工廠產(chǎn)能非常巨大,細(xì)節(jié)不便多談。
微信掃一掃
關(guān)于我們 北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭;液冷通用快速接頭UQD & UQDB;OCP ORV3盲插快換接頭BMQC;EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)。在國家數(shù)字經(jīng)濟(jì)、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點(diǎn),公司聚焦組建高素質(zhì)、經(jīng)驗(yàn)豐富的液冷工程師團(tuán)隊(duì),為客戶提供卓越的工程設(shè)計(jì)和強(qiáng)大的客戶服務(wù)。 公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。 - 針對機(jī)架式服務(wù)器中Manifold/節(jié)點(diǎn)、CDU/主回路等應(yīng)用場景,提供不同口徑及鎖緊方式的手動和全自動快速連接器。
|
|