欢乐颂小说结局是什么,梦入神机

DANFOSS
數(shù)據(jù)中心液冷產(chǎn)品
	數(shù)據(jù)中心液冷產(chǎn)品
	FD83接頭
	UQD快速接頭
	UQDB盲插接頭
	BMQC盲插接頭
	EHW194液冷軟管
	EHW094液冷軟管
	5400制冷劑接頭
	Manifold 分水器
	液冷系統(tǒng)生產(chǎn)及集成
Danfoss流體管閥件
	Hansen快速接頭
	Gromelle 快速接頭
	Aeroquip接頭軟管
	Waltech液壓管接頭
	Quick Seal測漏接頭
	Synflex樹脂管
	Winner膠管接頭
	Boston工業(yè)管
	Weatherhead管件
	Walterscheid接頭
	EverCool軟管
	Everflex軟管
非標(biāo)定制液冷產(chǎn)品
	液冷系統(tǒng)生產(chǎn)及集成
	閥門
	傳感器
選型資料下載
	新聞通告
	成功案例
	資料下載

Blackwell GPU GB200 NVL整機(jī)系統(tǒng)介紹
CDCC 2024年09月20日 11:55 北京

GB200 NVL系列較之前DGX系統(tǒng)最大的變化大概有4點(diǎn)：

1、整機(jī)柜交付形態(tài)，非常密集的銅纜布線，功耗可達(dá)120KW/rack。
2、首次計(jì)算節(jié)點(diǎn)外部使用了獨(dú)立NVswitch交換機(jī)。
3、使用了OCP的ORv3標(biāo)準(zhǔn)，在供電上面使用了Busbar硬接插槽方式。
4、冷板液冷系統(tǒng)成為標(biāo)配，無風(fēng)冷版本（DGX B200不算NVL）

GB200 NVL72

名字由來：

G——Grace CPU
B——Blackwell GPU
200——代次
NVL——NVlink互聯(lián)技術(shù)
72——72顆GPU

形態(tài)介紹

基于Blackwell的NVL72，是整機(jī)柜設(shè)備，72是指總共72顆B200的GPU芯片。整機(jī)包括18個Compute tray（上10下8），9個NVswitch tray，6個電源tray（上3，下3）。整機(jī)柜功耗達(dá)到了120KW。

單臺GB200 NVL72的FP16的算力達(dá)到了360P，相當(dāng)于22.5臺H100的算力性能。且本次重點(diǎn)增加了FP4/FP6的精度能力，考慮在推理中使用FP4精度，則算力可達(dá)1440P。

單個rack內(nèi)部使用nvlink全部互聯(lián)，Compute tray和NVSwitch tray之間為nvlink5.0技術(shù)，通過Copper Cable Cartridge相連，總共多大5184條銅芯互聯(lián)線路。

正面展示：

計(jì)算配置

如上文所介紹，每個NVL72，有18個compute tray，這就是NVL72的算力配置單元，每個tray就是一個計(jì)算節(jié)點(diǎn)。

GB200 NVL72，首先定義了Bianca board的超級芯片組，每個芯片組由1個NV基于arm架構(gòu)開發(fā)的稱為Grace的CPU和2可Blackwell的GPU芯片，而每個compute tray則由2個超級芯片構(gòu)成，即2CPU+4GPU。NVL72的18個compute tray總共有18*4=72顆GPU。

每個compute tray，以1U的形態(tài)，直接插接在機(jī)框上。是日常部署、運(yùn)維的最小化單元。同時單個compute tray的功耗達(dá)到了5400W。

整機(jī)NVL72，顯存為13.8T，單顆B200芯片，顯存為192T，比原有H100的80GB，多出了112GB。同時，單GPU顯存帶寬從H100的3.35TB/s提升為了8TB/s。另，配合CPU配置了17TB的DDR5X內(nèi)存，單B200芯片480GB內(nèi)存。

網(wǎng)絡(luò)配置

● nvlink網(wǎng)絡(luò)

NVL72是全NVlink互聯(lián)的架構(gòu)，故在NVL72模式下，是無需使用到RDMA（IB&RoCE）網(wǎng)絡(luò)的。

1、整機(jī)NVL72配置了9個NVswitch tray，每個tray里面是2顆NVlink switch chip，每顆chip支持4*1.8TB/s的速率，即7.2TB/s的容量，轉(zhuǎn)換成為57.6Tbps，比當(dāng)前最熱的TH5的51.2Tbps芯片的容量更大一些。每個NVswitch tray提供2*4*1.8TB/s=14.4TB/s的NVLink能力。

NVswitch tray內(nèi)部線路圖：

NVswitch tray前面板圖：

2、GB200使用了nvlink5.0，每顆B200 chip通過自身18條nvlink5.0與NVlinkswitch chip進(jìn)行互聯(lián)。相當(dāng)于一臺NVL72有72*18=1296條NVlink5.0端口，每個端口是雙向100GB/s，由4對差分信號線組成，每對差分信號由1條copper cable提供鏈接，故實(shí)際鏈路是1296*4=5184條。

各代NVlink的帶寬：

nvlink5.0信道示意圖：

3、如下所示，GB200 NVL72機(jī)柜中的9個NVSwitch Tray全部用于連接72個B200。每個B200芯片分別與18顆NVswitch芯片由一條nvlink5.0、雙向100GB的鏈路進(jìn)行互聯(lián)；每顆NVswitch芯片支持7.2GB帶寬，即72條NVlink5.0鏈路，故適配72顆B200 GPU部署。所以，已經(jīng)沒有額外的NVLink接口用于擴(kuò)展構(gòu)成更大規(guī)模的集群。需要想其它辦法，后文介紹。

4、GB200 NVL72的NVlink在內(nèi)部形成了一個全互聯(lián)的狀態(tài)，僅通過NVswitch一跳，可以實(shí)現(xiàn)72顆B200芯片的全互聯(lián)。每個switchchip有4個nvlink端口，每個端口有72條銅纜對接，可以極大的降低光通信的功耗和成本，單機(jī)可減少20KW功耗。NVL72內(nèi)部通信結(jié)構(gòu)分析圖：

● 非NVlink網(wǎng)絡(luò)（RDMA+TCP高速網(wǎng)絡(luò)）

1、每個compute tray含有4個OSFP插槽，及2個QSFP插槽。compute tray前面板圖中網(wǎng)絡(luò)端口示意圖如下：

a）2個QSFP是由支持Bluefield-3 DPU，提供400G/800G口，用來負(fù)責(zé)TCP/存儲高性能網(wǎng)絡(luò)通信互聯(lián)，即NV提出的前端網(wǎng)絡(luò)。

b）4個OSFP插槽，CX7/CX8的800G/1.6TB口，的用于提供GB200的外部擴(kuò)容，使用RDMA網(wǎng)絡(luò)通信，即NV提出的后端網(wǎng)絡(luò)。

2、受限于設(shè)計(jì)架構(gòu)、傳輸成本、芯片能力，目前NV僅給出了最大576顆GPU（后面會提），即8臺GB200 NVL72的純NVlink組網(wǎng)方案。如果要做更進(jìn)一步的擴(kuò)容AI的訓(xùn)練/推理集群，需要通過RDMA網(wǎng)絡(luò)來進(jìn)行擴(kuò)容。Nvlink5.0達(dá)到100GB/s的帶寬，1個GPU是18條，總共1.8TB/s的帶寬，而RDMA目前最快速率單端口200GB/s（1.6Tbps），后者在速度上是無法相提并論的。

3、涉及到的光模塊間接（光模塊類型眾多，主要基于MSA定義，未來有機(jī)會單獨(dú)細(xì)講，本次主要是給大家簡單認(rèn)知。）更多詳細(xì)可參考：https://www.fibermall.com/

a）下圖是1.6T的OSFP-XD模塊，使用224G的serdes，總共8個lane，MPO16芯的SMF單模光纜，目前網(wǎng)上能找到的最便宜1.6T，12600刀/個，未來應(yīng)該會出多模激光器的光模塊。

b）下圖是800G常用的QSFP模塊，分別使用1*16芯多模MPO，模塊是8個lane組成，在短距離情況是使用MMF光纖。下圖屬于最基礎(chǔ)性的OSPF800G模塊，100米傳輸距離，市場報(bào)價在1200刀/個左右。

c）下圖是800G常用模塊中的其中一種，OSPF，使用16芯MPO，模塊由8個lane組成。下圖模塊可以傳輸100m，使用MMF多模光纖，市場報(bào)價在750刀/個左右。

電源配置

1、整機(jī)額定功耗120KW，按2N配置為4+4(or4+2)個電源shelf，每個電源shelf支持33KW，可安插支持6個5.5KW的PSU單元，提供5+1的冗余能力。

2、使用的是OCP的ORv3 HPR的電源shelf，擁有超過97.5%的電源效率，從而減小AC-DC轉(zhuǎn)換過程中的電力損耗。同時使用48V/50V的低壓直流輸出給各槽位，比傳統(tǒng)的12V有更低的電力輸送損耗。

3、機(jī)柜輸入電源采用OCP的ORV3 HPR標(biāo)準(zhǔn)，AC input為415V。各槽位通過硬插鏈接的方式，直接與機(jī)柜的Busbar總線鏈接。

4、在AC的input側(cè)，使用的是ORv3定義的7pin插接，下圖展示了兩種（左北美、右歐洲）不同的接頭標(biāo)準(zhǔn)。按照單電源shelf支持33KW推測，每個input的輸入應(yīng)該是125A的斷路標(biāo)準(zhǔn)。

5、在AC的input的上游端，使用的是標(biāo)準(zhǔn)工業(yè)連接器，遵循IEC 60309-2的標(biāo)準(zhǔn)IP67，移動工業(yè)插頭，支持125A斷路開關(guān)。根據(jù)相數(shù)電壓不同，可以選擇3芯125A或者5芯125A。

制冷配置

在H100階段，單GPU為700W，為滿足風(fēng)冷散熱的要求，創(chuàng)造更好的空氣動力環(huán)境，整機(jī)在8顆H100的情況下已經(jīng)做到了6-8U的空間。在B200階段，單顆芯片為1200W，為了更大的散熱空間，整機(jī)已經(jīng)達(dá)到10U（8*B200）。

而在GB200 Bianca board的場景下，2700W的功耗，空氣流速已經(jīng)不足以能在19英寸機(jī)柜中形成有效散熱，故只能選擇液冷方案。同時，可以將整機(jī)體積控制在1~2U的范圍內(nèi)，大大提升了空間利用率，且散熱效率更高。

1、液冷可以通過冷盤解決Bianca上的CPU和GPU的散熱，但是每個compute tray和NVswitch tray的前面部分還有很多定制化的部件，比如網(wǎng)卡、PDU、管理卡、硬盤等，這部分依舊需要風(fēng)冷散熱。故以compute tray來講一般需要形成風(fēng)液比：8.5:1.5左右。未來如果需要基于CX網(wǎng)卡進(jìn)行scale-out時候，可能會在NIC網(wǎng)卡處設(shè)計(jì)cold plate。下圖是compute tray液冷架構(gòu)圖：

2、在機(jī)柜層面，目前主要提供多種液冷解決方式：

a）針對一些風(fēng)冷的老機(jī)房改造有RDHx和Sidecar兩種方案選擇，前者可提供30~40KW制冷，而后者則提供70~140KW制冷。這兩種方案可在現(xiàn)有機(jī)房的風(fēng)冷空調(diào)機(jī)組不做改變的情況下，增加每個rack的液冷系統(tǒng)，通過冷媒把熱冷帶到散熱器radiator與空氣熱交換（需要保留室內(nèi)風(fēng)冷環(huán)境），從而實(shí)現(xiàn)制冷，改動較小，無需大范圍改造管路。方案如圖下圖。但，以上方案要滿足NVL72的制冷是比較吃力的。

b)針對NV72這樣的高密度，新建數(shù)據(jù)中心，可以有in-rack的CDU和in-row的CDU兩種不同方案選擇。in-rack的CDU需要占用機(jī)柜內(nèi)部超過4U的位置，其制冷效率一般在80KW左右，同時沒法提供CDU冗余能力；in-row的CDU脫離單個rack內(nèi)部，而是在數(shù)個機(jī)柜或列機(jī)柜配置的規(guī)模下，配置2個CDU系統(tǒng)，其制冷可到800KW~2000KW，同時提供冗余能力，目前NVL576集群的官方宣傳就是用的in-row的方案。架構(gòu)如圖：

GB200 NVL36

NVL36是NVL72的變體，差異主要體現(xiàn)在4個方面：

1、每個compute tray從原來的NVL72的1U變成了2U，內(nèi)部依舊是2顆grace的CPU+4顆B200芯片。單個rack的算力減半，但總算力一致。

2、單個rack從原來的120KW，減少到了單個rack的66KW，這樣能適配更加廣泛的數(shù)據(jù)中心。

3、2個rack中間的9個NVswitch tray，由于單rack內(nèi)的GPU少了一半，而這些端口用來進(jìn)行跨rack的nvlink互聯(lián)。這樣nvlinkswitch就比原來的NVL72多了一層，變成兩層。

4、由于功耗降低，所需的33KW的power shelf也減少，2個即可滿足需求，2N冗余可以配置2+2shelf。

除去以上幾點(diǎn)外，NVL36與NVL72并無其它不同。另外，傳言META會使用定制化的單compute tray為4CPU+4GPU的NVL36。

網(wǎng)上未找到NVL36的實(shí)體圖，這個是示意圖：

NVL36的的NVswitch tray與另一個NVL36rack進(jìn)行back to back的互聯(lián)，每個NVswitch tray的一半端口連本rack的背板，推測另一半端口與旁邊rack進(jìn)行互聯(lián)是使用的18個1.8TB的端口，總共為64.8TB的rack間互聯(lián)帶寬。網(wǎng)上有說是OSFP模塊的，但是不置可否，因?yàn)?.8TB*8=14.4Tbps，目前OSPFDD只能做到1.6Tbps，故更偏向于是背板互聯(lián)。

GB200 NVL576

NVL576是通過16臺的NVL36進(jìn)行擴(kuò)容而來。因?yàn)椋琋VL72單rack系統(tǒng)的nvlink已經(jīng)全互聯(lián)使用，如果要1:1的無阻塞scale-out，那么至少需要有足夠的端口和外部互聯(lián)，但NVL72已經(jīng)沒有了空間。同時，考慮到全互聯(lián)的需求，把NVL72拆成NVL36后，每個rack還有一半即64.8TB共648條nvlink5.0鏈路可以進(jìn)行擴(kuò)容連接到第二層的NVswitch上。

所以按NV官方說的576顆B200（2880P算力，F(xiàn)P16)，那么應(yīng)該是要用16臺NVL36來進(jìn)行組網(wǎng)。每個NVswitch都提供了36個對外互聯(lián)的nvlink端口，累計(jì)單個機(jī)柜有36 * 2 * 9 =648個上行端口，構(gòu)成NVL576需要有16個機(jī)柜，則累計(jì)上行端口數(shù)為 648 * 16 = 10,368個，對應(yīng)的第二層交換平面需要有10368個端口進(jìn)行對接，經(jīng)計(jì)算

10368÷（72/2）÷2÷18=8

實(shí)際上可以由8個第二層交換平面構(gòu)成，每個平面內(nèi)又有36個NVswitch，由18個NVswitch tray構(gòu)成576顆GPU的全NVlink HBN域，互聯(lián)結(jié)構(gòu)如下所示（這圖來自fibermall，里面的planes-9應(yīng)該是錯的，正確應(yīng)該是8）：

下圖是官網(wǎng)NVL576的部署示意圖，但這個圖其實(shí)是有些不確定性的，因?yàn)槿绻腔贜VL36的機(jī)框，這個圖是不正確的。

DGX B200

設(shè)備介紹

1、DGX B200是由NV官方版本的整機(jī)系統(tǒng)，含8塊B200的GPU，內(nèi)部2顆NVswitch進(jìn)行互聯(lián)，支持8*400G網(wǎng)絡(luò)，單機(jī)額定功耗在14.3KW。

2、官配機(jī)提供的是風(fēng)冷版本，使用5+1個電源配置模式。目前未找到液冷版本的相關(guān)信息。

值得注意就是這里，由于系統(tǒng)設(shè)置只有超過1個電源故障，整機(jī)就會宕機(jī)，所以在做網(wǎng)絡(luò)配置時，無論如何無法基于傳統(tǒng)數(shù)據(jù)中心A/B兩路均插電源的方式實(shí)現(xiàn)電源容災(zāi)，也就是無法做到A/B路容災(zāi)，實(shí)際一路供電受影響，機(jī)器即受影響。

所以，如果需要做電源側(cè)容災(zāi)，需要進(jìn)行復(fù)雜的開關(guān)配置，即在每臺DGX B200的PDU之前，做一個電源switch，對A/B兩路進(jìn)行故障切換，可能還需要考慮大電容、末端電池UPS等。還有一種方案，就是6路UPS與6個PDU進(jìn)行獨(dú)立供電。但無論哪種方式，其電源插接方式都是復(fù)雜的。

3、安裝方式展示

SuperPOD網(wǎng)絡(luò)：

NV官網(wǎng)的DGX B200的super POD是127個節(jié)點(diǎn)（1個UFM），單臺提供4個800G（8個400G）的OSFP接口，每32臺為一個SuperPOD，同時使用64口400G的交換機(jī)。

因?yàn)橐嵘龜U(kuò)容能力，leaf提供32上、32下的400G能力，即每個SuperPOD里的leaf接32臺B200各1個400G口，總共8臺交換機(jī)。故上行為8*32=256個400G口。

spine層使用8臺的情況下，總共8*64=512個400G口，剛好滿足2個S普洱POD的互聯(lián)（256*2）。如果是16臺spine，則如下圖可以滿足4個POD的互聯(lián)。16臺spine情況下，16*64=32*32=1024口，故總共4個POD共32臺leaf，正好spine的上下行能全部用完。另外，按照比例算，如果是二層的網(wǎng)絡(luò)架構(gòu)，選用64口400G組網(wǎng)，最多可以64leaf+32spine，構(gòu)成2048顆GPU的集群。

下圖是基于SuperPOD推薦的網(wǎng)絡(luò)機(jī)柜配置。

微信掃一掃
關(guān)注該公眾號

關(guān)于我們

北京漢深流體技術(shù)有限公司是丹佛斯中國數(shù)據(jù)中心簽約代理商。產(chǎn)品包括FD83全流量自鎖球閥接頭，UQD系列液冷快速接頭、EHW194 EPDM液冷軟管、電磁閥、壓力和溫度傳感器及Manifold的生產(chǎn)和集成服務(wù)。在國家數(shù)字經(jīng)濟(jì)、東數(shù)西算、雙碳、新基建戰(zhàn)略的交匯點(diǎn)，公司聚焦組建高素質(zhì)、經(jīng)驗(yàn)豐富的液冷工程師團(tuán)隊(duì)，為客戶提供卓越的工程設(shè)計(jì)和強(qiáng)大的客戶服務(wù)。

公司產(chǎn)品涵蓋：丹佛斯液冷流體連接器、EPDM軟管、電磁閥、壓力和溫度傳感器及Manifold。
未來公司發(fā)展規(guī)劃：數(shù)據(jù)中心液冷基礎(chǔ)設(shè)施解決方案廠家，具備冷量分配單元（CDU）、二次側(cè)管路（SFN）和Manifold的專業(yè)研發(fā)設(shè)計(jì)制造能力。

- 針對機(jī)架式服務(wù)器中Manifold/節(jié)點(diǎn)、CDU/主回路等應(yīng)用場景，提供不同口徑及鎖緊方式的手動和全自動快速連接器。
- 針對高可用和高密度要求的刀片式機(jī)架，可提供帶浮動、自動校正不對中誤差的盲插連接器。以實(shí)現(xiàn)狹小空間的精準(zhǔn)對接。
- 基于OCP標(biāo)準(zhǔn)全新打造的UQD/UQDB通用快速連接器也將首次亮相, 支持全球范圍內(nèi)的大批量交付。

北京漢深流體技術(shù)有限公司 Hansen Fluid
丹佛斯簽約中國經(jīng)銷商 Danfoss Authorized Distributor

地址：北京市朝陽區(qū)望京街10號望京SOHO塔1C座2115室
郵編：100102
電話：010-8428 2935 , 8428 3983 , 13910962635
手機(jī)：15801532751，17310484595 ，13910122694
13011089770，15313809303
Http：//shanghaining.com.cn
E-mail：sales@cnmec.biz
傳真：010-8428 8762

京ICP備2023024665號
京公網(wǎng)安備 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships