|
|
GB200 NVL系列較之前DGX系統(tǒng)最大的變化大概有4點(diǎn): 1、整機(jī)柜交付形態(tài),非常密集的銅纜布線,功耗可達(dá)120KW/rack。
GB200 NVL72 名字由來: G——Grace CPU 形態(tài)介紹 基于Blackwell的NVL72,是整機(jī)柜設(shè)備,72是指總共72顆B200的GPU芯片。整機(jī)包括18個Compute tray(上10下8),9個NVswitch tray,6個電源tray(上3,下3)。整機(jī)柜功耗達(dá)到了120KW。 單臺GB200 NVL72的FP16的算力達(dá)到了360P,相當(dāng)于22.5臺H100的算力性能。且本次重點(diǎn)增加了FP4/FP6的精度能力,考慮在推理中使用FP4精度,則算力可達(dá)1440P。 單個rack內(nèi)部使用nvlink全部互聯(lián),Compute tray和NVSwitch tray之間為nvlink5.0技術(shù),通過Copper Cable Cartridge相連,總共多大5184條銅芯互聯(lián)線路。 正面展示:
計(jì)算配置 如上文所介紹,每個NVL72,有18個compute tray,這就是NVL72的算力配置單元,每個tray就是一個計(jì)算節(jié)點(diǎn)。 GB200 NVL72,首先定義了Bianca board的超級芯片組,每個芯片組由1個NV基于arm架構(gòu)開發(fā)的稱為Grace的CPU和2可Blackwell的GPU芯片,而每個compute tray則由2個超級芯片構(gòu)成,即2CPU+4GPU。NVL72的18個compute tray總共有18*4=72顆GPU。 每個compute tray,以1U的形態(tài),直接插接在機(jī)框上。是日常部署、運(yùn)維的最小化單元。同時單個compute tray的功耗達(dá)到了5400W。 整機(jī)NVL72,顯存為13.8T,單顆B200芯片,顯存為192T,比原有H100的80GB,多出了112GB。同時,單GPU顯存帶寬從H100的3.35TB/s提升為了8TB/s。另,配合CPU配置了17TB的DDR5X內(nèi)存,單B200芯片480GB內(nèi)存。
網(wǎng)絡(luò)配置 ● nvlink網(wǎng)絡(luò) NVL72是全NVlink互聯(lián)的架構(gòu),故在NVL72模式下,是無需使用到RDMA(IB&RoCE)網(wǎng)絡(luò)的。 1、整機(jī)NVL72配置了9個NVswitch tray,每個tray里面是2顆NVlink switch chip,每顆chip支持4*1.8TB/s的速率,即7.2TB/s的容量,轉(zhuǎn)換成為57.6Tbps,比當(dāng)前最熱的TH5的51.2Tbps芯片的容量更大一些。每個NVswitch tray提供2*4*1.8TB/s=14.4TB/s的NVLink能力。 NVswitch tray內(nèi)部線路圖:
NVswitch tray前面板圖:
2、GB200使用了nvlink5.0,每顆B200 chip通過自身18條nvlink5.0與NVlinkswitch chip進(jìn)行互聯(lián)。相當(dāng)于一臺NVL72有72*18=1296條NVlink5.0端口,每個端口是雙向100GB/s,由4對差分信號線組成,每對差分信號由1條copper cable提供鏈接,故實(shí)際鏈路是1296*4=5184條。 各代NVlink的帶寬:
nvlink5.0信道示意圖:
3、如下所示,GB200 NVL72機(jī)柜中的9個NVSwitch Tray全部用于連接72個B200。每個B200芯片分別與18顆NVswitch芯片由一條nvlink5.0、雙向100GB的鏈路進(jìn)行互聯(lián);每顆NVswitch芯片支持7.2GB帶寬,即72條NVlink5.0鏈路,故適配72顆B200 GPU部署。所以,已經(jīng)沒有額外的NVLink接口用于擴(kuò)展構(gòu)成更大規(guī)模的集群。需要想其它辦法,后文介紹。
4、GB200 NVL72的NVlink在內(nèi)部形成了一個全互聯(lián)的狀態(tài),僅通過NVswitch一跳,可以實(shí)現(xiàn)72顆B200芯片的全互聯(lián)。每個switchchip有4個nvlink端口,每個端口有72條銅纜對接,可以極大的降低光通信的功耗和成本,單機(jī)可減少20KW功耗。NVL72內(nèi)部通信結(jié)構(gòu)分析圖:
● 非NVlink網(wǎng)絡(luò)(RDMA+TCP高速網(wǎng)絡(luò)) 1、每個compute tray含有4個OSFP插槽,及2個QSFP插槽。compute tray前面板圖中網(wǎng)絡(luò)端口示意圖如下:
a)2個QSFP是由支持Bluefield-3 DPU,提供400G/800G口,用來負(fù)責(zé)TCP/存儲高性能網(wǎng)絡(luò)通信互聯(lián),即NV提出的前端網(wǎng)絡(luò)。 b)4個OSFP插槽,CX7/CX8的800G/1.6TB口,的用于提供GB200的外部擴(kuò)容,使用RDMA網(wǎng)絡(luò)通信,即NV提出的后端網(wǎng)絡(luò)。 2、受限于設(shè)計(jì)架構(gòu)、傳輸成本、芯片能力,目前NV僅給出了最大576顆GPU(后面會提),即8臺GB200 NVL72的純NVlink組網(wǎng)方案。如果要做更進(jìn)一步的擴(kuò)容AI的訓(xùn)練/推理集群,需要通過RDMA網(wǎng)絡(luò)來進(jìn)行擴(kuò)容。Nvlink5.0達(dá)到100GB/s的帶寬,1個GPU是18條,總共1.8TB/s的帶寬,而RDMA目前最快速率單端口200GB/s(1.6Tbps),后者在速度上是無法相提并論的。 3、涉及到的光模塊間接(光模塊類型眾多,主要基于MSA定義,未來有機(jī)會單獨(dú)細(xì)講,本次主要是給大家簡單認(rèn)知。)更多詳細(xì)可參考:https://www.fibermall.com/ a)下圖是1.6T的OSFP-XD模塊,使用224G的serdes,總共8個lane,MPO16芯的SMF單模光纜,目前網(wǎng)上能找到的最便宜1.6T,12600刀/個,未來應(yīng)該會出多模激光器的光模塊。
b)下圖是800G常用的QSFP模塊,分別使用1*16芯多模MPO,模塊是8個lane組成,在短距離情況是使用MMF光纖。下圖屬于最基礎(chǔ)性的OSPF800G模塊,100米傳輸距離,市場報(bào)價在1200刀/個左右。
c)下圖是800G常用模塊中的其中一種,OSPF,使用16芯MPO,模塊由8個lane組成。下圖模塊可以傳輸100m,使用MMF多模光纖,市場報(bào)價在750刀/個左右。
電源配置 1、整機(jī)額定功耗120KW,按2N配置為4+4(or4+2)個電源shelf,每個電源shelf支持33KW,可安插支持6個5.5KW的PSU單元,提供5+1的冗余能力。
2、使用的是OCP的ORv3 HPR的電源shelf,擁有超過97.5%的電源效率,從而減小AC-DC轉(zhuǎn)換過程中的電力損耗。同時使用48V/50V的低壓直流輸出給各槽位,比傳統(tǒng)的12V有更低的電力輸送損耗。
3、機(jī)柜輸入電源采用OCP的ORV3 HPR標(biāo)準(zhǔn),AC input為415V。各槽位通過硬插鏈接的方式,直接與機(jī)柜的Busbar總線鏈接。
4、在AC的input側(cè),使用的是ORv3定義的7pin插接,下圖展示了兩種(左北美、右歐洲)不同的接頭標(biāo)準(zhǔn)。按照單電源shelf支持33KW推測,每個input的輸入應(yīng)該是125A的斷路標(biāo)準(zhǔn)。
5、在AC的input的上游端,使用的是標(biāo)準(zhǔn)工業(yè)連接器,遵循IEC 60309-2的標(biāo)準(zhǔn)IP67,移動工業(yè)插頭,支持125A斷路開關(guān)。根據(jù)相數(shù)電壓不同,可以選擇3芯125A或者5芯125A。
制冷配置 在H100階段,單GPU為700W,為滿足風(fēng)冷散熱的要求,創(chuàng)造更好的空氣動力環(huán)境,整機(jī)在8顆H100的情況下已經(jīng)做到了6-8U的空間。在B200階段,單顆芯片為1200W,為了更大的散熱空間,整機(jī)已經(jīng)達(dá)到10U(8*B200)。 而在GB200 Bianca board的場景下,2700W的功耗,空氣流速已經(jīng)不足以能在19英寸機(jī)柜中形成有效散熱,故只能選擇液冷方案。同時,可以將整機(jī)體積控制在1~2U的范圍內(nèi),大大提升了空間利用率,且散熱效率更高。 1、液冷可以通過冷盤解決Bianca上的CPU和GPU的散熱,但是每個compute tray和NVswitch tray的前面部分還有很多定制化的部件,比如網(wǎng)卡、PDU、管理卡、硬盤等,這部分依舊需要風(fēng)冷散熱。故以compute tray來講一般需要形成風(fēng)液比:8.5:1.5左右。未來如果需要基于CX網(wǎng)卡進(jìn)行scale-out時候,可能會在NIC網(wǎng)卡處設(shè)計(jì)cold plate。下圖是compute tray液冷架構(gòu)圖: 2、在機(jī)柜層面,目前主要提供多種液冷解決方式: a)針對一些風(fēng)冷的老機(jī)房改造有RDHx和Sidecar兩種方案選擇,前者可提供30~40KW制冷,而后者則提供70~140KW制冷。這兩種方案可在現(xiàn)有機(jī)房的風(fēng)冷空調(diào)機(jī)組不做改變的情況下,增加每個rack的液冷系統(tǒng),通過冷媒把熱冷帶到散熱器radiator與空氣熱交換(需要保留室內(nèi)風(fēng)冷環(huán)境),從而實(shí)現(xiàn)制冷,改動較小,無需大范圍改造管路。方案如圖下圖。但,以上方案要滿足NVL72的制冷是比較吃力的。
b)針對NV72這樣的高密度,新建數(shù)據(jù)中心,可以有in-rack的CDU和in-row的CDU兩種不同方案選擇。in-rack的CDU需要占用機(jī)柜內(nèi)部超過4U的位置,其制冷效率一般在80KW左右,同時沒法提供CDU冗余能力;in-row的CDU脫離單個rack內(nèi)部,而是在數(shù)個機(jī)柜或列機(jī)柜配置的規(guī)模下,配置2個CDU系統(tǒng),其制冷可到800KW~2000KW,同時提供冗余能力,目前NVL576集群的官方宣傳就是用的in-row的方案。架構(gòu)如圖:
GB200 NVL36 NVL36是NVL72的變體,差異主要體現(xiàn)在4個方面: 1、每個compute tray從原來的NVL72的1U變成了2U,內(nèi)部依舊是2顆grace的CPU+4顆B200芯片。單個rack的算力減半,但總算力一致。 2、單個rack從原來的120KW,減少到了單個rack的66KW,這樣能適配更加廣泛的數(shù)據(jù)中心。 3、2個rack中間的9個NVswitch tray,由于單rack內(nèi)的GPU少了一半,而這些端口用來進(jìn)行跨rack的nvlink互聯(lián)。這樣nvlinkswitch就比原來的NVL72多了一層,變成兩層。 4、由于功耗降低,所需的33KW的power shelf也減少,2個即可滿足需求,2N冗余可以配置2+2shelf。 除去以上幾點(diǎn)外,NVL36與NVL72并無其它不同。另外,傳言META會使用定制化的單compute tray為4CPU+4GPU的NVL36。 網(wǎng)上未找到NVL36的實(shí)體圖,這個是示意圖:
NVL36的的NVswitch tray與另一個NVL36rack進(jìn)行back to back的互聯(lián),每個NVswitch tray的一半端口連本rack的背板,推測另一半端口與旁邊rack進(jìn)行互聯(lián)是使用的18個1.8TB的端口,總共為64.8TB的rack間互聯(lián)帶寬。網(wǎng)上有說是OSFP模塊的,但是不置可否,因?yàn)?.8TB*8=14.4Tbps,目前OSPFDD只能做到1.6Tbps,故更偏向于是背板互聯(lián)。
GB200 NVL576 NVL576是通過16臺的NVL36進(jìn)行擴(kuò)容而來。因?yàn)椋琋VL72單rack系統(tǒng)的nvlink已經(jīng)全互聯(lián)使用,如果要1:1的無阻塞scale-out,那么至少需要有足夠的端口和外部互聯(lián),但NVL72已經(jīng)沒有了空間。同時,考慮到全互聯(lián)的需求,把NVL72拆成NVL36后,每個rack還有一半即64.8TB共648條nvlink5.0鏈路可以進(jìn)行擴(kuò)容連接到第二層的NVswitch上。 所以按NV官方說的576顆B200(2880P算力,F(xiàn)P16),那么應(yīng)該是要用16臺NVL36來進(jìn)行組網(wǎng)。每個NVswitch都提供了36個對外互聯(lián)的nvlink端口,累計(jì)單個機(jī)柜有36 * 2 * 9 =648個上行端口,構(gòu)成NVL576需要有16個機(jī)柜,則累計(jì)上行端口數(shù)為 648 * 16 = 10,368個,對應(yīng)的第二層交換平面需要有10368個端口進(jìn)行對接,經(jīng)計(jì)算 10368÷(72/2)÷2÷18=8 實(shí)際上可以由8個第二層交換平面構(gòu)成,每個平面內(nèi)又有36個NVswitch,由18個NVswitch tray構(gòu)成576顆GPU的全NVlink HBN域,互聯(lián)結(jié)構(gòu)如下所示(這圖來自fibermall,里面的planes-9應(yīng)該是錯的,正確應(yīng)該是8):
下圖是官網(wǎng)NVL576的部署示意圖,但這個圖其實(shí)是有些不確定性的,因?yàn)槿绻腔贜VL36的機(jī)框,這個圖是不正確的。 DGX B200 設(shè)備介紹 1、DGX B200是由NV官方版本的整機(jī)系統(tǒng),含8塊B200的GPU,內(nèi)部2顆NVswitch進(jìn)行互聯(lián),支持8*400G網(wǎng)絡(luò),單機(jī)額定功耗在14.3KW。
2、官配機(jī)提供的是風(fēng)冷版本,使用5+1個電源配置模式。目前未找到液冷版本的相關(guān)信息。 值得注意就是這里,由于系統(tǒng)設(shè)置只有超過1個電源故障,整機(jī)就會宕機(jī),所以在做網(wǎng)絡(luò)配置時,無論如何無法基于傳統(tǒng)數(shù)據(jù)中心A/B兩路均插電源的方式實(shí)現(xiàn)電源容災(zāi),也就是無法做到A/B路容災(zāi),實(shí)際一路供電受影響,機(jī)器即受影響。 所以,如果需要做電源側(cè)容災(zāi),需要進(jìn)行復(fù)雜的開關(guān)配置,即在每臺DGX B200的PDU之前,做一個電源switch,對A/B兩路進(jìn)行故障切換,可能還需要考慮大電容、末端電池UPS等。還有一種方案,就是6路UPS與6個PDU進(jìn)行獨(dú)立供電。但無論哪種方式,其電源插接方式都是復(fù)雜的。
3、安裝方式展示
SuperPOD網(wǎng)絡(luò): NV官網(wǎng)的DGX B200的super POD是127個節(jié)點(diǎn)(1個UFM),單臺提供4個800G(8個400G)的OSFP接口,每32臺為一個SuperPOD,同時使用64口400G的交換機(jī)。 因?yàn)橐嵘龜U(kuò)容能力,leaf提供32上、32下的400G能力,即每個SuperPOD里的leaf接32臺B200各1個400G口,總共8臺交換機(jī)。故上行為8*32=256個400G口。 spine層使用8臺的情況下,總共8*64=512個400G口,剛好滿足2個S普洱POD的互聯(lián)(256*2)。如果是16臺spine,則如下圖可以滿足4個POD的互聯(lián)。16臺spine情況下,16*64=32*32=1024口,故總共4個POD共32臺leaf,正好spine的上下行能全部用完。另外,按照比例算,如果是二層的網(wǎng)絡(luò)架構(gòu),選用64口400G組網(wǎng),最多可以64leaf+32spine,構(gòu)成2048顆GPU的集群。
下圖是基于SuperPOD推薦的網(wǎng)絡(luò)機(jī)柜配置。
? 微信掃一掃 關(guān)于我們 北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭,UQD系列液冷快速接頭、EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)和集成服務(wù)。在國家數(shù)字經(jīng)濟(jì)、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點(diǎn),公司聚焦組建高素質(zhì)、經(jīng)驗(yàn)豐富的液冷工程師團(tuán)隊(duì),為客戶提供卓越的工程設(shè)計(jì)和強(qiáng)大的客戶服務(wù)。 公司產(chǎn)品涵蓋:丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。
|
|