|
|
Today, we are releasing our tour of the xAI Colossus Supercomputer. For those who have heard stories of Elon Musk’s xAI building a giant AI supercomputer in Memphis, this is that cluster. With 100,000 NVIDIA H100 GPUs, this multi-billion-dollar AI cluster is notable not just for its size but also for the speed at which it was built. In only 122 days, the teams built this giant cluster. Today, we get to show you inside the building. Of course, we have a video for this one that you can find on X or on YouTube: Normally, on STH, we do everything entirely independently. This was different. Supermicro is sponsoring this because it is easily the most costly piece for us to do this year. Also, some things will be blurred out, or I will be intentionally vague due to the sensitivity behind building the largest AI cluster in the world. We received special approval by Elon Musk and his team in order to show this. Supermicro Liquid Cooled Racks at xAI These racks are arranged in groups of eight for 512 GPUs, plus networking to provide mini clusters within the much larger system. Here, xAI is using the Supermicro 4U Universal GPU system. These are the most advanced AI servers on the market right now, for a few reasons. One is the degree of liquid cooling. The other is how serviceable they are. We first saw the prototype for these systems at Supercomputing 2023 (SC23) in Denver about a year ago. We were not able to open one of these systems in Memphis because they were busy running training jobs while we were there. One example of this is how the system is on trays that are serviceable without removing systems from the rack. The 1U rack manifold helps usher in cool liquid and out warmed liquid for each system. Quick disconnects make it fast to get the liquid cooling out of the way, and we showed last year how these can be removed and installed one-handed. Once these are removed, the trays can be pulled out for service. Luckily, we have images of the prototype for this server so we can show you what is inside these systems. Aside from the 8 GPU NVIDIA HGX tray that uses custom Supermicro liquid cooling blocks, the CPU tray shows why these are a next-level design that is unmatched in the industry. The two x86 CPU liquid cooling blocks in the SC23 prototype above are fairly common. What is unique is on the right-hand side. Supermicro’s motherboard integrates the four Broadcom PCIe switches used in almost every HGX AI server today instead of putting them on a separate board. Supermicro then has a custom liquid cooling block to cool these four PCIe switches. Other AI servers in the industry are built, and then liquid cooling is added to an air-cooled design. Supermicro’s design is from the ground up to be liquid-cooled, and all from one vendor. It is analogous to cars, where some are designed to be gas-powered first, and then an EV powertrain is fitted to the chassis, versus EVs that are designed from the ground up to be EVs. This Supermicro system is the latter, while other HGX H100 systems are the former. We have had hands-on time with most of the public HGX H100/H200 platforms since they launched, and some of the hyper-scale designs. Make no mistake, there is a big gap in this Supermicro system and others, including some of Supermicro’s other designs that can be liquid or air cooled that we have reviewed previously.
來源:內(nèi)容綜合自servethehome,謝謝。
今天,servethehome發(fā)布了 xAI Colossus 超級計算機(jī)之旅。對于那些聽說過埃隆·馬斯克的 xAI 在孟菲斯建造巨型 AI 超級計算機(jī)的人來說,這就是那個集群。這個價值數(shù)十億美元的 AI 集群擁有 100,000 個 NVIDIA H100 GPU,不僅規(guī)模大,而且建造速度快。僅用 122 天,團(tuán)隊就建造了這個巨型集群。今天,我們將帶您參觀大樓內(nèi)部。
Colossus 的基本構(gòu)建模塊是 Supermicro 液冷機(jī)架。它由 8 臺 4U 服務(wù)器組成,每臺服務(wù)器配備 8 個 NVIDIA H100,每臺機(jī)架總共有 64 個 GPU。8 臺這樣的 GPU 服務(wù)器加上一臺Supermicro 冷卻液分配單元 (CDU)和相關(guān)硬件構(gòu)成了一個 GPU 計算機(jī)架。
這些機(jī)架以八個為一組排列,共計 512 個 GPU,再加上網(wǎng)絡(luò),可在更大的系統(tǒng)內(nèi)提供迷你集群。
在這里,xAI 使用的是 Supermicro 4U 通用 GPU 系統(tǒng)。出于幾個原因,這些是目前市場上最先進(jìn)的 AI 服務(wù)器。一是液體冷卻的程度。另一個是它們的可維護(hù)性。
大約一年前,我們在丹佛的 Supercomputing 2023 (SC23)上首次看到了這些系統(tǒng)的原型。我們無法在孟菲斯打開這些系統(tǒng)之一,因為我們在那里時他們正忙于運行訓(xùn)練工作。其中一個例子是系統(tǒng)如何放置在托盤上,無需從機(jī)架上移除系統(tǒng)即可進(jìn)行維修。1U 機(jī)架歧管有助于為每個系統(tǒng)引入冷液體并排出熱液體?焖贁嚅_裝置可以快速將液體冷卻裝置移開,我們?nèi)ツ暾故玖巳绾螁问植鹦逗桶惭b它們。一旦移除它們,就可以拉出托盤進(jìn)行維修。
幸運的是,我們有這款服務(wù)器原型的,因此我們可以向您展示這些系統(tǒng)的內(nèi)部結(jié)構(gòu)。除了使用定制 Supermicro 液體冷卻塊的 8 GPU NVIDIA HGX 托盤外,CPU 托盤還展示了為什么這些是業(yè)內(nèi)無與倫比的下一代設(shè)計。
上圖 SC23 原型中的兩個 x86 CPU 液冷塊相當(dāng)常見。獨特之處在于右側(cè)。Supermicro 的主板集成了當(dāng)今幾乎每個 HGX AI 服務(wù)器中使用的四個 Broadcom PCIe 交換機(jī),而不是將它們放在單獨的主板上。Supermicro 隨后有一個定制的液冷塊來冷卻這四個 PCIe 交換機(jī)。業(yè)內(nèi)其他 AI 服務(wù)器都是這樣構(gòu)建的,然后在風(fēng)冷設(shè)計中添加液冷。Supermicro 的設(shè)計從頭到尾都是液冷,而且全部來自同一家供應(yīng)商。
這類似于汽車,有些汽車首先設(shè)計為汽油驅(qū)動,然后在底盤上安裝 EV 動力系統(tǒng),而 EV 則從一開始就設(shè)計為 EV。這款 Supermicro 系統(tǒng)屬于后者,而其他 HGX H100 系統(tǒng)屬于前者。自推出以來,我們已經(jīng)親身體驗了大多數(shù)公共 HGX H100/H200 平臺以及一些超大規(guī)模設(shè)計。毫無疑問,這款 Supermicro 系統(tǒng)與其他系統(tǒng)之間存在很大差距,包括我們之前評測過的一些 Supermicro 其他可以采用液體或空氣冷卻的設(shè)計。
在機(jī)架的后面,我們看到了用于連接 GPU 和 CPU 的 400GbE 光纖,以及用于管理網(wǎng)絡(luò)的銅線。這些 NIC 也位于自己的托盤上,無需拆卸機(jī)箱即可輕松更換,但它們位于機(jī)箱的后面。每臺服務(wù)器有四個電源,它們也是熱插拔的,并通過三相 PDU 供電。
在機(jī)架底部,我們有 CDU 或冷卻液分配單元。這些 CDU 就像巨型熱交換器。在每個機(jī)架中,都有一個流體回路,為所有 GPU 服務(wù)器提供流體。我們在這里說的是流體,而不是水,因為通常這些回路需要根據(jù)液體冷卻塊、管道、歧管等中的材料調(diào)整流體。
每個 CDU 都有冗余泵和電源,因此如果其中一個發(fā)生故障,可以在現(xiàn)場更換,而無需關(guān)閉整個機(jī)架。由于我之前曾更換過其中一個泵,所以我考慮在 Colossus 更換。后來我想這可能不是最明智的想法。
xAI 機(jī)架有很多事情要做,但在拍攝 2023 年的作品時,我們更清楚地拍攝了 Supermicro CDU。在這里,您可以看到設(shè)施水和機(jī)架歧管的輸入和輸出。您還可以看到每個 CDU 的熱插拔冗余電源。
這是 Colossus 機(jī)架中的 CDU,被各種管子和電纜隱藏著。
在 Colossus 機(jī)架的兩側(cè),我們都有三相 PDU 以及機(jī)架歧管。每個前置 1U 歧管為 4U 通用 GPU 系統(tǒng)供電,而這些歧管又由連接到 CDU 的機(jī)架歧管供電。所有這些組件都標(biāo)有紅色和藍(lán)色配件。幸運的是,這是一種熟悉的顏色編碼方案,紅色代表暖色,藍(lán)色代表環(huán)路的較冷部分。
您可能已經(jīng)從這些照片中注意到,這里仍然有風(fēng)扇。許多液冷服務(wù)器都使用風(fēng)扇來冷卻 DIMM、電源、低功耗基板管理控制器、NIC 等組件。在 Colossus,每個機(jī)架都需要與數(shù)據(jù)大廳保持中性冷卻,以避免安裝大型空氣處理器。服務(wù)器中的風(fēng)扇從機(jī)架前部抽取較冷的空氣,并在服務(wù)器后部排出空氣。從那里,空氣通過后門熱交換器被抽出。
雖然后門熱交換器聽起來很花哨,但它們與汽車中的散熱器非常相似。它們從機(jī)架中吸收廢氣,并將其通過帶翅片的熱交換器/散熱器。就像服務(wù)器一樣,該熱交換器中也有液體流動,然后熱量可以交換到設(shè)施水環(huán)路?諝馔ㄟ^設(shè)備背面的風(fēng)扇被吸入。與大多數(shù)汽車散熱器不同,這些散熱器有一個非常巧妙的技巧。在正常運行時,它們會亮起藍(lán)燈。它們也可以亮起其他顏色的光,比如如果出現(xiàn)需要維修的問題,則會亮起紅燈。當(dāng)我參觀正在施工的現(xiàn)場時,我當(dāng)然沒有打開其中幾個機(jī)架,但看到這些熱交換器在打開時隨著機(jī)架上線而改變顏色,真是令人賞心悅目。
這些后門熱交換器在數(shù)據(jù)大廳中還有另一個重要的設(shè)計用途。它們不僅可以消除 Supermicro 液冷 GPU 服務(wù)器產(chǎn)生的各種熱量,還可以消除存儲、CPU 計算集群和網(wǎng)絡(luò)組件產(chǎn)生的熱量。
這個急群眾,存儲也確實很有趣。
在 AI 集群中,您通常會看到大型存儲陣列。在這里,我們運行著來自不同供應(yīng)商的存儲軟件,但我們看到的幾乎每個存儲服務(wù)器也都是 Supermicro 的。這并不奇怪。Supermicro 是許多存儲供應(yīng)商的 OEM。
我們參觀該設(shè)施時發(fā)現(xiàn)的一個非常有趣的現(xiàn)象是,一些存儲服務(wù)器看起來與 CPU 計算服務(wù)器非常相似。
無論如何,在我們的照片和視頻中,您都會看到很多 2.5 英寸 NVMe 存儲托架。我們在 Substack 上介紹過,大型 AI 集群已從基于磁盤的存儲轉(zhuǎn)向閃存,因為它可以節(jié)省大量電力,同時提供更高的性能和更高的密度。閃存每 PB 的成本可能更高,但在這種規(guī)模的集群中,閃存往往在 TCO 方面勝出。
在所有這些集群中,您通常會看到大量傳統(tǒng) CPU 計算節(jié)點。處理和數(shù)據(jù)操作任務(wù)在 CPU 上仍然運行良好,而不是在 GPU 上。您可能還希望讓 GPU 運行 AI 訓(xùn)練或推理工作負(fù)載,而不是其他任務(wù)。
在這里,我們看到了 1U 服務(wù)器機(jī)架。每臺服務(wù)器的設(shè)計都旨在平衡計算密度和產(chǎn)生的熱量。一個很好的例子是,我們可以看到前面有 NVMe 存儲托架的橙色標(biāo)簽,但面板的約三分之一專門用于將冷空氣吸入系統(tǒng)。
這些 1U 計算服務(wù)器可以通過風(fēng)扇冷卻,然后后門熱交換器可以去除熱量并將其與設(shè)施水環(huán)路交換。由于數(shù)據(jù)中心采用后門熱交換器設(shè)計,xAI 可以處理液冷設(shè)備和風(fēng)冷設(shè)備。
網(wǎng)絡(luò)是該集群其中最吸引人的部分之一。如果您的計算機(jī)使用以太網(wǎng)電纜,那么它與此處的網(wǎng)絡(luò)使用相同的基礎(chǔ)技術(shù)。不同之處在于,每個光纖連接的速度是 400GbE,比我們在其他地方看到的常見 1GbE 網(wǎng)絡(luò)快 400 倍。每個系統(tǒng)還有 9 個這樣的鏈接,這意味著我們每個 GPU 計算服務(wù)器的帶寬約為 3.6Tbps。
GPU 的 RDMA 網(wǎng)絡(luò)占了該帶寬的大部分。每個 GPU 都有自己的 NIC。在這里,xAI 使用 NVIDIA BlueField-3 SuperNIC 和 Spectrum-X 網(wǎng)絡(luò)。NVIDIA 在其網(wǎng)絡(luò)堆棧中有一些特殊的功能,可幫助確保正確的數(shù)據(jù)到達(dá)正確的位置,從而繞過集群中的瓶頸。
這是一件大事。許多超級計算機(jī)網(wǎng)絡(luò)使用 InfiniBand 或其他技術(shù),但這是以太網(wǎng)。以太網(wǎng)意味著它可以擴(kuò)展。在 STH 上閱讀本文的每個人都會在某個時候通過以太網(wǎng)傳輸頁面。以太網(wǎng)是互聯(lián)網(wǎng)的骨干。因此,它是一種可擴(kuò)展性極強的技術(shù)。這些龐大的 AI 集群正在擴(kuò)展到一些更奇特的技術(shù)在規(guī)模方面尚未觸及的程度。這是 xAI 團(tuán)隊的一次非常大膽的舉動。
除了 GPU RDMA 網(wǎng)絡(luò)之外,CPU 還可以獲得 400GbE 連接,它使用完全不同的交換結(jié)構(gòu)。xAI 為其 GPU 運行一個網(wǎng)絡(luò),為集群的其余部分運行一個網(wǎng)絡(luò),這是高性能計算集群中非常常見的設(shè)計點。
為了讓大家了解 400GbE 的速度有多快,它比 2021 年初頂級 Intel Xeon 服務(wù)器處理器在其所有 PCIe 通道上處理的連接數(shù)還要多。這里每臺服務(wù)器使用了九次這種級別的網(wǎng)絡(luò)。
所有這些網(wǎng)絡(luò)意味著我們擁有大量的光纖線路。每條光纖線路都經(jīng)過切割和端接,長度正確,并貼上標(biāo)簽。
除了高速集群網(wǎng)絡(luò)之外,還有低速網(wǎng)絡(luò),用于任何此類集群的各種管理接口和環(huán)境設(shè)備。
參觀該設(shè)施時,可以明顯看出液冷網(wǎng)絡(luò)交換機(jī)是急需的。我們最近評測了一款 64 端口 800GbE 交換機(jī),與許多 AI 集群中使用的交換機(jī)屬于 51.2T 級別。業(yè)界需要解決的問題不僅是冷卻交換機(jī)芯片,還有光學(xué)器件,因為現(xiàn)代交換機(jī)的功耗可能比交換機(jī)芯片高得多。也許像這樣的大型安裝可能會推動行業(yè)轉(zhuǎn)向共封裝光學(xué)器件,這樣交換機(jī)的冷卻就可以跟隨計算到液體冷卻。我們之前已經(jīng)看過液冷共封裝光學(xué)交換機(jī)演示,所以希望這次安裝能幫助它們在未來從原型走向生產(chǎn)。
由于我們擁有液冷式 AI 服務(wù)器機(jī)架,因此電源和設(shè)施用水對于安裝至關(guān)重要。下面是巨大的水管。有一組冷水和熱水。冷水被帶入設(shè)施并在每個機(jī)架的 CDU 中循環(huán)。熱量從 GPU 和后門熱交換器回路傳遞到 CDU 的設(shè)施水回路。然后,熱水被帶到設(shè)施外的冷卻器中。當(dāng)然,冷卻器不是那種可以制作冰塊的冷卻器。相反,目標(biāo)只是將水溫降低到足夠低,以便冷卻到足以再次通過設(shè)施循環(huán)。
電力令人著迷。當(dāng)我們在孟菲斯建設(shè)該系統(tǒng)時,我們看到團(tuán)隊正在將巨大的電力電纜移到位。
在設(shè)施外面,我們看到了裝有 Tesla Megapacks 的集裝箱。這是團(tuán)隊在構(gòu)建這個巨型集群時真正學(xué)到的要點之一。AI 服務(wù)器并非 24×7 全天候以 100% 額定功耗運行。相反,它們的功耗有很多高峰和低谷。由于現(xiàn)場有如此多的 GPU,隨著工作負(fù)載轉(zhuǎn)移到 GPU,然后整理結(jié)果并分派新作業(yè),功耗會波動。團(tuán)隊發(fā)現(xiàn),毫秒級的功率峰值和下降已經(jīng)足夠讓人緊張,因此將 Tesla Megapacks 放在中間以幫助緩沖這些功率峰值有助于使整個安裝更加可靠。
當(dāng)然,該設(shè)施才剛剛起步。我們參觀時,四個 25,000 GPU 數(shù)據(jù)大廳的初始集群已啟動并運行,可容納約 100,000 個 GPU,但集群擴(kuò)展工作正在迅速推進(jìn)。
這似乎是一件真正令人敬畏的事情的開始。
在做這件事時,我學(xué)到的一個關(guān)鍵主題是,xAI 團(tuán)隊需要更多時間來處理供應(yīng)商之間的細(xì)微分歧。實現(xiàn)這一目標(biāo)的唯一方法是,大量專家齊心協(xié)力構(gòu)建系統(tǒng),并以前所未有的速度構(gòu)建一個巨大的 AI 集群
與此同時,英偉達(dá)發(fā)布了一個新聞稿,透露xAI團(tuán)隊正在打造擁有20萬GPU的超算集群。
NVIDIA 以太網(wǎng)網(wǎng)絡(luò)加速由 xAI 打造的全球最大 AI 超級計算機(jī)
NVIDIA 今天宣布,位于田納西州孟菲斯的 xAI 的 Colossus 超級計算機(jī)集群由 100,000 個 NVIDIA Hopper GPU 組成,該集群通過使用 NVIDIA Spectrum-X ? 以太網(wǎng)網(wǎng)絡(luò)平臺實現(xiàn)了這一大規(guī)模,該平臺旨在為使用基于標(biāo)準(zhǔn)的以太網(wǎng)的多租戶、超大規(guī)模 AI 工廠提供卓越的性能,用于其遠(yuǎn)程直接內(nèi)存訪問 (RDMA) 網(wǎng)絡(luò)。
Colossus 是世界上最大的人工智能超級計算機(jī),用于訓(xùn)練 xAI 的 Grok 系列大型語言模型,并為 X Premium 用戶提供聊天機(jī)器人功能。xAI 正在將 Colossus 的規(guī)模擴(kuò)大一倍,總共配備 200,000 個NVIDIA Hopper GPU。
xAI 和 NVIDIA 僅用 122 天就建造了配套設(shè)施和最先進(jìn)的超級計算機(jī),而這種規(guī)模的系統(tǒng)通常需要數(shù)月甚至數(shù)年的時間。從第一個機(jī)架滾到地面到訓(xùn)練開始,一共花了 19 天。
在訓(xùn)練超大型 Grok 模型時,Colossus 實現(xiàn)了前所未有的網(wǎng)絡(luò)性能。在網(wǎng)絡(luò)結(jié)構(gòu)的所有三個層級中,系統(tǒng)均未出現(xiàn)因流量沖突導(dǎo)致的應(yīng)用程序延遲降低或數(shù)據(jù)包丟失。借助 Spectrum-X 擁塞控制,它保持了 95% 的數(shù)據(jù)吞吐量。
標(biāo)準(zhǔn)以太網(wǎng)無法大規(guī)模實現(xiàn)這種級別的性能,因為標(biāo)準(zhǔn)以太網(wǎng)會產(chǎn)生數(shù)千次流沖突,而數(shù)據(jù)吞吐量卻僅為 60%。
NVIDIA 網(wǎng)絡(luò)高級副總裁 Gilad Shainer 表示:“AI 正變得至關(guān)重要,需要提高性能、安全性、可擴(kuò)展性和成本效益。NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺旨在為 xAI 等創(chuàng)新者提供更快的 AI 工作負(fù)載處理、分析和執(zhí)行速度,從而加快 AI 解決方案的開發(fā)、部署和上市時間!
“Colossus 是世界上最強大的訓(xùn)練系統(tǒng),”埃隆·馬斯克在X上表示。“xAI 團(tuán)隊、NVIDIA 以及我們的眾多合作伙伴/供應(yīng)商都做得很好!
xAI 發(fā)言人表示:“xAI 已經(jīng)打造出全球最大、性能最強的超級計算機(jī)。NVIDIA 的 Hopper GPU 和 Spectrum-X 使我們能夠大規(guī)模突破 AI 模型訓(xùn)練的界限,打造基于以太網(wǎng)標(biāo)準(zhǔn)的超加速、優(yōu)化 AI 工廠!
Spectrum-X 平臺的核心是Spectrum SN5600 以太網(wǎng)交換機(jī),它支持高達(dá) 800Gb/s 的端口速度,并基于 Spectrum-4 交換機(jī) ASIC。xAI 選擇將 Spectrum-X SN5600 交換機(jī)與NVIDIA BlueField-3 ? SuperNIC配對,以實現(xiàn)前所未有的性能。
Spectrum-X AI 以太網(wǎng)網(wǎng)絡(luò)具有先進(jìn)的功能,可提供高效、可擴(kuò)展的帶寬,具有低延遲和短尾延遲,而這些功能以前是 InfiniBand 獨有的。這些功能包括采用 NVIDIA Direct Data Placement 技術(shù)的自適應(yīng)路由、擁塞控制以及增強的 AI 結(jié)構(gòu)可視性和性能隔離 - 這些都是多租戶生成 AI 云和大型企業(yè)環(huán)境的關(guān)鍵要求。
YouTube的ServeTheHome用戶近日對xAI Colossus超大型集群中心進(jìn)行訪問,對集群的液冷機(jī)架、計算、存儲、網(wǎng)絡(luò)等多方面做了詳細(xì)介紹。雖然根據(jù)保密協(xié)議,功耗、CDU尺寸等詳細(xì)信息未做披露,而且發(fā)布前部分內(nèi)容做了模糊處理,但不影響對集群的大體認(rèn)識。
supermicro為集群打造提供了很大幫助,包括supermicro 4U通用液冷服務(wù)器、supermicro 1U NVMe存儲節(jié)點等。經(jīng)過 122 天的組裝,xAI Colossus的第一階段已經(jīng)完成,超級集群也已上線近兩個月。下一階段計劃將系統(tǒng)規(guī)模增長至20萬級別,新增5萬個H100和5萬個H200,musk承諾的30萬個H200可能要到第三階段了。
supermicro液冷機(jī)架
GPU服務(wù)器采用HGX H100,每個服務(wù)器包含8個H100 GPU。HGX H100平臺封裝在Supermicro 的4U通用GPU液體冷卻系統(tǒng)內(nèi),為每個 GPU 提供輕松的熱插拔液冷方案。
每個機(jī)架可容納 8 臺服務(wù)器,也即每個機(jī)架可容納64個GPU。1U manifold位于每個HGX H100之間,提供服務(wù)器所需的液冷方案。每個機(jī)架的底部是另一個 Supermicro 4U單元,帶有冗余CDU泵系統(tǒng)和機(jī)架監(jiān)控系統(tǒng)。每臺服務(wù)器都有四個冗余電源,GPU 機(jī)架的后部有三相(3-phase)電源且也可熱插拔、以太網(wǎng)交換機(jī)和機(jī)架大小的mailfold用于提供所需液冷。
機(jī)架按8個一組排列組成機(jī)架陣列,共可以容納8*64 = 512個GPU,通過網(wǎng)絡(luò)可以將集群規(guī)模擴(kuò)大。Colossus集群內(nèi)有超過 1,500個GPU機(jī)架,差不多近200個機(jī)架陣列。
下圖則展示了supermicro在sc23分享的cpu托盤,包含兩個x86 cpu液冷設(shè)計原型。比較獨特的設(shè)計點是右側(cè)在主板上集成了4個broadcom pcie交換機(jī),并使用定制的冷卻塊做冷卻。其他的AI服務(wù)器一般采用風(fēng)冷+液冷技術(shù)方案,而該設(shè)計則全部采用液冷,且來自supermicro同一家供應(yīng)商。
以太網(wǎng)網(wǎng)絡(luò)
集群整體采用以太網(wǎng)連接,每個GPU都有一個 400GbE 的專用 NIC(基于bluefield3 supernic和spectrum-x網(wǎng)絡(luò)),每臺服務(wù)器還有一個專用的 400Gb NIC,也就意味著每臺 HGX H100 服務(wù)器都擁有每秒(8個nic+1個專用)* 0.4 = 3.6Tbps的以太網(wǎng)。
訓(xùn)練grok模型時,采用3層網(wǎng)絡(luò)架構(gòu),系統(tǒng)未出現(xiàn)因流量沖突導(dǎo)致的延遲增長或丟包情況,憑借spectrum-x的先進(jìn)擁塞控制能力,系統(tǒng)吞吐一直保持在95%。
圖片
網(wǎng)絡(luò)帶寬大部分為RDMA網(wǎng)絡(luò),且CPU間也通過400GbE做連接。
基于supermicro的存儲
下圖展示了2.5英寸NVMe存儲托架及1U NVMe存儲節(jié)點,目前AI集群中存儲已從磁盤轉(zhuǎn)向flash,除了節(jié)能方面考量外,同時還提供更高性能和存儲密度。
基于supermicro的cpu計算
集群中雖然利用gpu做計算,但仍存在大量的cpu節(jié)點用來處理數(shù)據(jù)等任務(wù)。下圖則展示了當(dāng)前colossus數(shù)據(jù)中心的cpu計算機(jī)架,橙色部分為NVMe存儲托架。
基礎(chǔ)設(shè)施
由于采用液冷機(jī)架,所以對于電力和水基礎(chǔ)設(shè)施也非常重要,下圖則展示了水管設(shè)施,里面有涼水和溫水不同的管道,通過CDU循環(huán)進(jìn)行水回路的運行,以達(dá)到冷卻的作用。
同時值得借鑒的一點是,AI服務(wù)器并非以24*7 100%額定功耗運行,而是存在電力消耗的波峰和波谷。為了減少ms級功率峰值和功率下降對集群的影響,數(shù)據(jù)中心利用tesla megapack(每個最多可容納 3.9 MWh)集裝箱在電網(wǎng)和數(shù)據(jù)中心間做儲能緩沖管理。
更多資料: https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/
關(guān)于我們 北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭;液冷通用快速接頭UQD & UQDB;OCP ORV3盲插快換接頭BMQC;EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)。在國家數(shù)字經(jīng)濟(jì)、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點,公司聚焦組建高素質(zhì)、經(jīng)驗豐富的液冷工程師團(tuán)隊,為客戶提供卓越的工程設(shè)計和強大的客戶服務(wù)。 公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。 - 針對機(jī)架式服務(wù)器中Manifold/節(jié)點、CDU/主回路等應(yīng)用場景,提供不同口徑及鎖緊方式的手動和全自動快速連接器。
|
|