国产美女自慰大秀_成人国产黄色毛片_青柠在线观看免费高清电视剧红桃_日韩最新毛片网站_午夜久久亚洲精品_国产最新精品黄色免费三级片_亚洲成av人片不卡无码播放_国产亚洲日韩在线播放更多_国产精品呦另类稀缺_日本1级黄色视频免费在线播放

 
We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
數(shù)據(jù)中心液冷產(chǎn)品
  數(shù)據(jù)中心液冷產(chǎn)品
  FD83接頭
  UQD快速接頭
  UQDB盲插接頭
  BMQC盲插接頭
  EHW194液冷軟管
  EHW094液冷軟管
  5400制冷劑接頭
  Manifold 分水器
  液冷系統(tǒng)生產(chǎn)及集成
Danfoss流體管閥件
 
 
 
 
 
非標(biāo)定制液冷產(chǎn)品
液冷系統(tǒng)生產(chǎn)及集成
閥門
傳感器
選型資料下載
  新聞通告
  成功案例
  資料下載

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

黃仁勛最新2萬字演講實錄:將打破摩爾定律發(fā)布新產(chǎn)品,機(jī)器人時代已經(jīng)到來

 

騰訊科技訊 6月2日,英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在Computex 2024(2024臺北國際電腦展)上發(fā)表主題演講,分享了人工智能時代如何助推全球新產(chǎn)業(yè)革命。
以下為本次演講的要點:


①黃仁勛展示了最新量產(chǎn)版Blackwell芯片,并稱將在2025年推出Blackwell Ultra AI芯片,下一代AI平臺命名為Rubin,2027年推Rubin Ultra,更新節(jié)奏將是“一年一次”,打破“摩爾定律”。
② 黃仁勛宣稱英偉達(dá)推動了大語言模型誕生,其在2012年后改變了GPU架構(gòu),并將所有新技術(shù)集成在單臺計算機(jī)上。
③ 英偉達(dá)的加速計算技術(shù)幫助實現(xiàn)了100倍速率提升,而功耗僅增加到原來的3倍,成本為原來的1.5倍。
④ 黃仁勛預(yù)計下一代AI需要理解物理世界。他給出的方法是讓AI通過視頻與合成數(shù)據(jù)學(xué)習(xí),并讓AI互相學(xué)習(xí)。
⑤ 黃仁勛在PPT里甚至給token敲定了一個中文譯名——詞元。
⑥ 黃仁勛表示,機(jī)器人時代已經(jīng)到來,將來所有移動的物體都將實現(xiàn)自主運行。

以下是騰訊科技整理的兩小時演講全文實錄:

尊敬的各位來賓,我非常榮幸能再次站在這里。首先,我要感謝臺灣大學(xué)為我們提供這個體育館作為舉辦活動的場所。上一次我來到這里,是我從臺灣大學(xué)獲得學(xué)位的時候。今天,我們即將探討的內(nèi)容很多,所以我必須加快步伐,以快速而清晰的方式傳達(dá)信息。我們有很多話題要聊,我有許多激動人心的故事要與大家分享。

我很高興能夠來到中國臺灣,這里有我們很多合作伙伴。事實上,這里不僅是英偉達(dá)發(fā)展歷程中不可或缺的一部分,更是我們與合作伙伴共同將創(chuàng)新推向全球的關(guān)鍵節(jié)點。我們與許多合作伙伴共同構(gòu)建了全球范圍內(nèi)的人工智能基礎(chǔ)設(shè)施。今天,我想與大家探討幾個關(guān)鍵議題:

1)我們共同的工作正在取得哪些進(jìn)展,以及這些進(jìn)展的意義何在?
2)生成式人工智能到底是什么?它將如何影響我們的行業(yè),乃至每一個行業(yè)?
3)一個關(guān)于我們?nèi)绾吻斑M(jìn)的藍(lán)圖,我們將如何抓住這個令人難以置信的機(jī)遇?


接下來會發(fā)生什么?生成式人工智能及其帶來的深遠(yuǎn)影響,我們的戰(zhàn)略藍(lán)圖,這些都是我們即將探討的令人振奮的主題。我們正站在計算機(jī)行業(yè)重啟的起點上,一個由你們鑄就、由你們創(chuàng)造的新時代即將開啟,F(xiàn)在,你們已經(jīng)為下一段重要旅程做好了準(zhǔn)備。

新的計算時代正在開始

但在開始深入討論之前,我想先強(qiáng)調(diào)一點:英偉達(dá)位于計算機(jī)圖形學(xué)、模擬和人工智能的交匯點上,這構(gòu)成了我們公司的靈魂。今天,我將向大家展示的所有內(nèi)容,都是基于模擬的。這些不僅僅是視覺效果,它們背后是數(shù)學(xué)、科學(xué)和計算機(jī)科學(xué)的精髓,以及令人嘆為觀止的計算機(jī)架構(gòu)。沒有任何動畫是預(yù)先制作的,一切都是我們自家團(tuán)隊的杰作。這就是英偉達(dá)的領(lǐng)會,我們將其全部融入了我們引以為傲的Omniverse虛擬世界中,F(xiàn)在,請欣賞視頻!
全球數(shù)據(jù)中心的電力消耗正在急劇上升,同時計算成本也在不斷攀升。我們正面臨著計算膨脹的嚴(yán)峻挑戰(zhàn),這種情況顯然無法長期維持。數(shù)據(jù)將繼續(xù)以指數(shù)級增長,而CPU的性能擴(kuò)展卻難以像以往那樣快速。然而,有一種更為高效的方法正在浮現(xiàn)。
近二十年來,我們一直致力于加速計算的研究。CUDA技術(shù)增強(qiáng)了CPU的功能,將那些特殊處理器能更高效完成的任務(wù)卸載并加速。事實上,由于CPU性能擴(kuò)展的放緩甚至停滯,加速計算的優(yōu)勢愈發(fā)顯著。我預(yù)測,每個處理密集型的應(yīng)用都將實現(xiàn)加速,且不久的將來,每個數(shù)據(jù)中心都將實現(xiàn)全面加速。
圖片

 

現(xiàn)在,選擇加速計算是明智之舉,這已成為行業(yè)共識。想象一下,一個應(yīng)用程序需要100個時間單位來完成。無論是100秒還是100小時,我們往往無法承受運行數(shù)天甚至數(shù)月的人工智能應(yīng)用。

在這100個時間單位中,有1個時間單位涉及需要順序執(zhí)行的代碼,此時單線程CPU的重要性不言而喻。操作系統(tǒng)的控制邏輯是不可或缺的,必須嚴(yán)格按照指令序列執(zhí)行。然而,還有許多算法,如計算機(jī)圖形學(xué)、圖像處理、物理模擬、組合優(yōu)化、圖處理和數(shù)據(jù)庫處理,特別是深度學(xué)習(xí)中廣泛使用的線性代數(shù),它們非常適合通過并行處理進(jìn)行加速。為了實現(xiàn)這一目標(biāo),我們發(fā)明了一種創(chuàng)新架構(gòu),將GPU與CPU完美結(jié)合。

專用的處理器能夠?qū)⒃竞臅r的任務(wù)加速至令人難以置信的速度。由于這兩個處理器能并行工作,它們各自獨立且自主運行。這意味著,原本需要100個時間單位才能完成的任務(wù),現(xiàn)在可能僅需1個時間單位即可完成。盡管這種加速效果聽起來令人難以置信,但今天,我將通過一系列實例來驗證這一說法。
圖片

 

這種性能提升所帶來的好處是驚人的,加速100倍,而功率僅增加約3倍,成本僅上升約50%。我們在PC行業(yè)早已實踐了這種策略。在PC上添加一個價值500美元的GeForce GPU,就能使其性能大幅提升,同時整體價值也增加至1000美元。在數(shù)據(jù)中心,我們也采用了同樣的方法。一個價值十億美元的數(shù)據(jù)中心,在添加了價值5億美元的GPU后,瞬間轉(zhuǎn)變?yōu)橐粋強(qiáng)大的人工智能工廠。今天,這種變革正在全球范圍內(nèi)發(fā)生。

節(jié)省的成本同樣令人震驚。每投入1美元,你就能獲得高達(dá)60倍的性能提升。加速100倍,而功率僅增加3倍,成本僅上升1.5倍。節(jié)省的費用是實實在在的!

 

顯然,許多公司在云端處理數(shù)據(jù)上花費了數(shù)億美元。當(dāng)數(shù)據(jù)得到加速處理時,節(jié)省數(shù)億美元就變得合情合理。為什么會這樣呢?原因很簡單,我們在通用計算方面經(jīng)歷了長時間的效率瓶頸。

現(xiàn)在,我們終于認(rèn)識到了這一點,并決定加速。通過采用專用處理器,我們可以重新獲得大量之前被忽視的性能提升,從而節(jié)省大量金錢和能源。這就是為什么我說,你購買得越多,節(jié)省得也越多。


現(xiàn)在,我已經(jīng)向你們展示了這些數(shù)字。雖然它們并非精確到小數(shù)點后幾位,但這準(zhǔn)確地反映了事實。這可以稱之為“CEO數(shù)學(xué)”。CEO數(shù)學(xué)雖不追求極致的精確,但其背后的邏輯是正確的——你購買的加速計算能力越多,節(jié)省的成本也就越多。

 

350個函式庫幫助開拓新市場


加速計算帶來的結(jié)果確實非凡,但其實現(xiàn)過程并不容易。為什么它能節(jié)省這么多錢,但人們卻沒有更早地采用這種技術(shù)呢?原因就在于它的實施難度太大。 沒有現(xiàn)成的軟件可以簡單地通過加速編譯器運行,然后應(yīng)用程序就能瞬間提速100倍。這既不符合邏輯也不現(xiàn)實。如果這么容易,那么CPU廠商早就這樣做了。 事實上,要實現(xiàn)加速,軟件必須進(jìn)行全面重寫。這是整個過程中最具挑戰(zhàn)性的部分。軟件需要被重新設(shè)計、重新編碼,以便將原本在CPU上運行的算法轉(zhuǎn)化為可以在加速器上并行運行的格式。


這項計算機(jī)科學(xué)研究雖然困難,但我們在過去的20年里已經(jīng)取得了顯著的進(jìn)展。例如,我們推出了廣受歡迎的cuDNN深度學(xué)習(xí)庫,它專門處理神經(jīng)網(wǎng)絡(luò)加速。我們還為人工智能物理模擬提供了一個庫,適用于流體動力學(xué)等需要遵守物理定律的應(yīng)用。另外,我們還有一個名為Aerial的新庫,它利用CUDA加速5G無線電技術(shù),使我們能夠像軟件定義互聯(lián)網(wǎng)網(wǎng)絡(luò)一樣,用軟件定義和加速電信網(wǎng)絡(luò)。

 

這些加速能力不僅提升了性能,還幫助我們將整個電信行業(yè)轉(zhuǎn)化為一種與云計算類似的計算平臺。此外,Coolitho計算光刻平臺也是一個很好的例子,它極大地提升了芯片制造過程中計算最密集的部分——掩模制作的效率。臺積電等公司已經(jīng)開始使用Coolitho進(jìn)行生產(chǎn),不僅顯著節(jié)省了能源,而且大幅降低了成本。他們的目標(biāo)是通過加速技術(shù)棧,為算法的更進(jìn)一步發(fā)展和制造更深更窄的晶體管所需的龐大計算能力做好準(zhǔn)備。


Pair of Bricks是我們引以為傲的基因測序庫,它擁有世界領(lǐng)先的基因測序吞吐量。而Co OPT則是一個令人矚目的組合優(yōu)化庫,能夠解決路線規(guī)劃、優(yōu)化行程、旅行社問題等復(fù)雜難題。人們普遍認(rèn)為,這些問題需要量子計算機(jī)才能解決,但我們卻通過加速計算技術(shù),創(chuàng)造了一個運行極快的算法,成功打破了23項世界紀(jì)錄,至今我們?nèi)员3种恳粋主要的世界紀(jì)錄。


Coup Quantum是我們開發(fā)的量子計算機(jī)仿真系統(tǒng)。對于想要設(shè)計量子計算機(jī)或量子算法的研究人員來說,一個可靠的模擬器是必不可少的。在沒有實際量子計算機(jī)的情況下,英偉達(dá)CUDA——我們稱之為世界上最快的計算機(jī)——成為了他們的首選工具。我們提供了一個模擬器,能夠模擬量子計算機(jī)的運行,幫助研究人員在量子計算領(lǐng)域取得突破。這個模擬器已經(jīng)被全球數(shù)十萬研究人員廣泛使用,并被集成到所有領(lǐng)先的量子計算框架中,為世界各地的科學(xué)超級計算機(jī)中心提供了強(qiáng)大的支持。


此外,我們還推出了數(shù)據(jù)處理庫Kudieff,專門用于加速數(shù)據(jù)處理過程。數(shù)據(jù)處理占據(jù)了當(dāng)今云支出的絕大部分,因此加速數(shù)據(jù)處理對于節(jié)省成本至關(guān)重要。QDF是我們開發(fā)的加速工具,能夠顯著提升世界上主要數(shù)據(jù)處理庫的性能,如Spark、Pandas、Polar以及NetworkX等圖處理數(shù)據(jù)庫。


這些庫是生態(tài)系統(tǒng)中的關(guān)鍵組成部分,它們使得加速計算得以廣泛應(yīng)用。如果沒有我們精心打造的如cuDNN這樣的特定領(lǐng)域庫,僅憑CUDA,全球深度學(xué)習(xí)科學(xué)家可能無法充分利用其潛力,因為CUDA與TensorFlow、PyTorch等深度學(xué)習(xí)框架中使用的算法之間存在顯著差異。這就像在沒有OpenGL的情況下進(jìn)行計算機(jī)圖形學(xué)設(shè)計,或是在沒有SQL的情況下進(jìn)行數(shù)據(jù)處理一樣不切實際。


這些特定領(lǐng)域的庫是我們公司的寶藏,我們目前擁有超過350個這樣的庫。正是這些庫讓我們在市場中保持開放和領(lǐng)先。今天,我將向你們展示更多令人振奮的例子。 就在上周,谷歌宣布他們已經(jīng)在云端部署了QDF,并成功加速了Pandas。Pandas是世界上最受歡迎的數(shù)據(jù)科學(xué)庫,被全球1000萬數(shù)據(jù)科學(xué)家所使用,每月下載量高達(dá)1.7億次。它就像是數(shù)據(jù)科學(xué)家的Excel,是他們處理數(shù)據(jù)的得力助手。


現(xiàn)在,只需在谷歌的云端數(shù)據(jù)中心平臺Colab上點擊一下,你就可以體驗到由QDF加速的Pandas帶來的強(qiáng)大性能。這種加速效果確實令人驚嘆,就像你們剛剛看到的演示一樣,它幾乎瞬間就完成了數(shù)據(jù)處理任務(wù)。

CUDA實現(xiàn)良性循環(huán)


CUDA已經(jīng)達(dá)到了一個人們所稱的臨界點,但現(xiàn)實情況比這要好。CUDA已經(jīng)實現(xiàn)一個良性的發(fā)展循環(huán);仡櫄v史和各種計算架構(gòu)、平臺的發(fā)展,我們可以發(fā)現(xiàn)這樣的循環(huán)并不常見。以微處理器CPU為例,它已經(jīng)存在了60年,但其加速計算的方式在這漫長的歲月里并未發(fā)生根本性改變。


要創(chuàng)建一個新的計算平臺往往面臨著“先有雞還是先有蛋”的困境。沒有開發(fā)者的支持,平臺很難吸引用戶;而沒有用戶的廣泛采用,又難以形成龐大的安裝基礎(chǔ)來吸引開發(fā)者。這個困境在過去20年中一直困擾著多個計算平臺的發(fā)展。


然而,通過持續(xù)不斷地推出特定領(lǐng)域的庫和加速庫,我們成功打破了這一困境。如今,我們已在全球擁有500萬開發(fā)者,他們利用CUDA技術(shù)服務(wù)于從醫(yī)療保健、金融服務(wù)到計算機(jī)行業(yè)、汽車行業(yè)等幾乎每一個主要行業(yè)和科學(xué)領(lǐng)域。


隨著客戶群的不斷擴(kuò)大,OEM和云服務(wù)提供商也開始對我們的系統(tǒng)產(chǎn)生興趣,這進(jìn)一步推動了更多系統(tǒng)進(jìn)入市場。這種良性循環(huán)為我們創(chuàng)造了巨大的機(jī)遇,使我們能夠擴(kuò)大規(guī)模,增加研發(fā)投入,從而推動更多應(yīng)用的加速發(fā)展。


每一次應(yīng)用的加速都意味著計算成本的顯著降低。正如我之前展示的,100倍的加速可以帶來高達(dá)97.96%,即接近98%的成本節(jié)省。隨著我們將計算加速從100倍提升至200倍,再飛躍至1000倍,計算的邊際成本持續(xù)下降,展現(xiàn)出了令人矚目的經(jīng)濟(jì)效益。


當(dāng)然,我們相信,通過顯著降低計算成本,市場、開發(fā)者、科學(xué)家和發(fā)明家將不斷發(fā)掘出消耗更多計算資源的新算法。直至某個時刻,一種深刻的變革將悄然發(fā)生。當(dāng)計算的邊際成本變得如此低廉時,全新的計算機(jī)使用方式將應(yīng)運而生。


事實上,這種變革正在我們眼前上演。過去十年間,我們利用特定算法將計算的邊際成本降低了驚人的100萬倍。如今,利用互聯(lián)網(wǎng)上的所有數(shù)據(jù)來訓(xùn)練大語言模型已成為一種合乎邏輯且理所當(dāng)然的選擇,不再受到任何質(zhì)疑。


這個想法——打造一臺能夠處理海量數(shù)據(jù)以自我編程的計算機(jī)——正是人工智能崛起的基石。人工智能的崛起之所以成為可能,完全是因為我們堅信,如果我們讓計算變得越來越便宜,總會有人找到巨大的用途。如今,CUDA的成功已經(jīng)證明了這一良性循環(huán)的可行性。


隨著安裝基礎(chǔ)的持續(xù)擴(kuò)大和計算成本的持續(xù)降低,越來越多的開發(fā)者得以發(fā)揮他們的創(chuàng)新潛能,提出更多的想法和解決方案。這種創(chuàng)新力推動了市場需求的激增。現(xiàn)在我們正站在一個重大轉(zhuǎn)折點上。然而,在我進(jìn)一步展示之前,我想強(qiáng)調(diào)的是,如果不是CUDA和現(xiàn)代人工智能技術(shù)——尤其是生成式人工智能的突破,以下我所要展示的內(nèi)容將無法實現(xiàn)。
這就是“地球2號”項目——一個雄心勃勃的設(shè)想,旨在創(chuàng)建地球的數(shù)字孿生體。我們將模擬整個地球的運行,以預(yù)測其未來變化。通過這樣的模擬,我們可以更好地預(yù)防災(zāi)難,更深入地理解氣候變化的影響,從而讓我們能夠更好地適應(yīng)這些變化,甚至現(xiàn)在就開始改變我們的行為和習(xí)慣。


“地球2號”項目可能是世界上最具挑戰(zhàn)性、最雄心勃勃的項目之一。我們每年都在這個領(lǐng)域取得顯著的進(jìn)步,而今年的成果尤為突出,F(xiàn)在,請允許我為大家展示這些令人振奮的進(jìn)展。


在不遠(yuǎn)的將來,我們將擁有持續(xù)的天氣預(yù)報能力,覆蓋地球上的每一平方公里。你將始終了解氣候?qū)⑷绾巫兓@種預(yù)測將不斷運行,因為我們訓(xùn)練了人工智能,而人工智能所需的能量又極為有限。這將是一個令人難以置信的成就。我希望你們會喜歡它,而更加重要的是,這一預(yù)測實際上是由Jensen AI做出的,而非我本人。我設(shè)計了它,但最終的預(yù)測由Jensen AI來呈現(xiàn)。


由于我們致力于不斷提高性能并降低成本,研究人員在2012年發(fā)現(xiàn)了CUDA,那是英偉達(dá)與人工智能的首次接觸。那一天對我們而言至關(guān)重要,因為我們做出了明智的選擇,與科學(xué)家們緊密合作,使深度學(xué)習(xí)成為可能。AlexNet的出現(xiàn)實現(xiàn)了計算機(jī)視覺的巨大突破。

 

AI超算的崛起,起初并不被認(rèn)同


但更為重要的智慧在于我們退后一步,深入理解了深度學(xué)習(xí)的本質(zhì)。它的基礎(chǔ)是什么?它的長期影響是什么?它的潛力是什么?我們意識到,這項技術(shù)擁有巨大的潛力,能夠繼續(xù)擴(kuò)展幾十年前發(fā)明和發(fā)現(xiàn)的算法,結(jié)合更多的數(shù)據(jù)、更大的網(wǎng)絡(luò)和至關(guān)重要的計算資源,深度學(xué)習(xí)突然間能夠?qū)崿F(xiàn)人類算法無法企及的任務(wù)。


現(xiàn)在,想象一下,如果我們進(jìn)一步擴(kuò)大架構(gòu),擁有更大的網(wǎng)絡(luò)、更多的數(shù)據(jù)和計算資源,將會發(fā)生什么?因此,我們致力于重新發(fā)明一切。自2012年以來,我們改變了GPU的架構(gòu),增加了張量核心,發(fā)明了NV-Link,推出了cuDNN、TensorRT、Nickel,還收購了Mellanox,推出了Triton推理服務(wù)器。


這些技術(shù)集成在一臺全新的計算機(jī)上,它超越了當(dāng)時所有人的想象。沒有人預(yù)料到,沒有人提出這樣的需求,甚至沒有人理解它的全部潛力。事實上,我自己也不確定是否會有人會想買它。


但在GTC大會上,我們正式發(fā)布了這項技術(shù)。舊金山一家名叫OpenAI的初創(chuàng)公司迅速注意到了我們的成果,并請求我們提供一臺設(shè)備。我親自為OpenAI送去了世界上首臺人工智能超級計算機(jī)DGX。


2016年,我們持續(xù)擴(kuò)大研發(fā)規(guī)模。從單一的人工智能超級計算機(jī),單一的人工智能應(yīng)用,擴(kuò)大到在2017年推出了更為龐大且強(qiáng)大的超級計算機(jī)。隨著技術(shù)的不斷進(jìn)步,世界見證了Transformer的崛起。這一模型的出現(xiàn),使我們能夠處理海量的數(shù)據(jù),并識別和學(xué)習(xí)在長時間跨度內(nèi)連續(xù)的模式。


如今,我們有能力訓(xùn)練這些大語言模型,以實現(xiàn)自然語言理解方面的重大突破。但我們并未止步于此,我們繼續(xù)前行,構(gòu)建了更大的模型。到了2022年11月,在極為強(qiáng)大的人工智能超級計算機(jī)上,我們使用數(shù)萬顆英偉達(dá)GPU進(jìn)行訓(xùn)練。


僅僅5天后,OpenAI宣布ChatGPT已擁有100萬用戶。這一驚人的增長速度,在短短兩個月內(nèi)攀升至1億用戶,創(chuàng)造了應(yīng)用歷史上最快的增長記錄。其原因十分簡單——ChatGPT的使用體驗便捷而神奇。


用戶能夠與計算機(jī)進(jìn)行自然、流暢的互動,仿佛與真人交流一般。無需繁瑣的指令或明確的描述,ChatGPT便能理解用戶的意圖和需求。 ChatGPT的出現(xiàn)標(biāo)志著一個劃時代的變革,這張幻燈片恰恰捕捉到了這一關(guān)鍵轉(zhuǎn)折。請允許我為大家展示下。

 

直至ChatGPT的問世,它才真正向世界揭示了生成式人工智能的無限潛能。長久以來,人工智能的焦點主要集中在感知領(lǐng)域,如自然語言理解、計算機(jī)視覺和語音識別,這些技術(shù)致力于模擬人類的感知能力。但ChatGPT帶來了質(zhì)的飛躍,它不僅僅局限于感知,而是首次展現(xiàn)了生成式人工智能的力量。


它會逐個生成Token,這些Token可以是單詞、圖像、圖表、表格,甚至是歌曲、文字、語音和視頻。Token可以代表任何具有明確意義的事物,無論是化學(xué)物質(zhì)、蛋白質(zhì)、基因,還是之前我們提到的天氣模式。


這種生成式人工智能的崛起意味著,我們可以學(xué)習(xí)并模擬物理現(xiàn)象,讓人工智能模型理解并生成物理世界的各種現(xiàn)象。我們不再局限于縮小范圍進(jìn)行過濾,而是通過生成的方式探索無限可能。


如今,我們幾乎可以為任何有價值的事物生成Token,無論是汽車的轉(zhuǎn)向盤控制、機(jī)械臂的關(guān)節(jié)運動,還是我們目前能夠?qū)W習(xí)的任何知識。因此,我們所處的已不僅僅是一個人工智能時代,而是一個生成式人工智能引領(lǐng)的新紀(jì)元。


更重要的是,這臺最初作為超級計算機(jī)出現(xiàn)的設(shè)備,如今已經(jīng)演化為一個高效運轉(zhuǎn)的人工智能數(shù)據(jù)中心。它不斷地產(chǎn)出,不僅生成Token,更是一個創(chuàng)造價值的人工智能工廠。這個人工智能工廠正在生成、創(chuàng)造和生產(chǎn)具有巨大市場潛力的新商品。


正如19世紀(jì)末尼古拉·特斯拉(Nikola Tesla)發(fā)明了交流發(fā)電機(jī),為我們帶來了源源不斷的電子,英偉達(dá)的人工智能生成器也正在源源不斷地產(chǎn)生具有無限可能性的Token。這兩者都有巨大的市場機(jī)會,有望在每個行業(yè)掀起變革。這確實是一場新的工業(yè)革命!


我們現(xiàn)在迎來了一個全新的工廠,能夠為各行各業(yè)生產(chǎn)出前所未有的、極具價值的新商品。這一方法不僅極具可擴(kuò)展性,而且完全可重復(fù)。請注意,目前,每天都在不斷涌現(xiàn)出各種各樣的人工智能模型,尤其是生成式人工智能模型。如今,每個行業(yè)都競相參與其中,這是前所未有的盛況。


價值3萬億美元的IT行業(yè),即將催生出能夠直接服務(wù)于100萬億美元產(chǎn)業(yè)的創(chuàng)新成果。它不再僅僅是信息存儲或數(shù)據(jù)處理的工具,而是每個行業(yè)生成智能的引擎。這將成為一種新型的制造業(yè),但它并非傳統(tǒng)的計算機(jī)制造業(yè),而是利用計算機(jī)進(jìn)行制造的全新模式。這樣的變革以前從未發(fā)生過,這確實是一件令人矚目的非凡之事。

 

生成式AI推動軟件全棧重塑,展示NIM云原生微服務(wù)


這開啟了計算加速的新時代,推動了人工智能的迅猛發(fā)展,進(jìn)而催生了生成式人工智能的興起。而如今,我們正在經(jīng)歷一場工業(yè)革命。關(guān)于其影響,讓我們深入探討一下。
對于我們所在的行業(yè)而言,這場變革的影響同樣深遠(yuǎn)。正如我之前所言,這是過去六十年來的首次,計算的每一層都正在發(fā)生變革。從CPU的通用計算到GPU的加速計算,每一次變革都標(biāo)志著技術(shù)的飛躍。


過去,計算機(jī)需要遵循指令執(zhí)行操作,而現(xiàn)在,它們更多地是處理LLM(大語言模型)和人工智能模型。過去的計算模型主要基于檢索,幾乎每次你使用手機(jī)時,它都會為你檢索預(yù)先存儲的文本、圖像或視頻,并根據(jù)推薦系統(tǒng)重新組合這些內(nèi)容呈現(xiàn)給你。


但在未來,你的計算機(jī)會盡可能多地生成內(nèi)容,只檢索必要的信息,因為生成數(shù)據(jù)在獲取信息時消耗的能量更少。而且,生成的數(shù)據(jù)具有更高的上下文相關(guān)性,能更準(zhǔn)確地反映你的需求。當(dāng)你需要答案時,不再需要明確指示計算機(jī)“給我獲取那個信息”或“給我那個文件”,只需簡單地說:“給我一個答案!


此外,計算機(jī)不再僅僅是我們使用的工具,它開始生成技能。它執(zhí)行任務(wù),而不再是一個生產(chǎn)軟件的行業(yè),這在90年代初是一個顛覆性的觀念。記得嗎?微軟提出的軟件打包理念徹底改變了PC行業(yè)。沒有打包軟件,我們的PC將失去大部分功能。這一創(chuàng)新推動了整個行業(yè)的發(fā)展。


現(xiàn)在我們有了新工廠、新計算機(jī),而在這個基礎(chǔ)上運行的是一種新型軟件——我們稱之為Nim(NVIDIA Inference Microservices)。在這個新工廠中運行的Nim是一個預(yù)訓(xùn)練模型,它是一個人工智能。

 

這個人工智能本身相當(dāng)復(fù)雜,但運行人工智能的計算堆棧更是復(fù)雜得令人難以置信。當(dāng)你使用ChatGPT這樣的模型時,其背后是龐大的軟件堆棧。這個堆棧復(fù)雜而龐大,因為模型擁有數(shù)十億到數(shù)萬億個參數(shù),且不僅在一臺計算機(jī)上運行,而是在多臺計算機(jī)上協(xié)同工作。


為了最大化效率,系統(tǒng)需要將工作負(fù)載分配給多個GPU,進(jìn)行各種并行處理,如張量并行、管道并行、數(shù)據(jù)并行和專家并行。這樣的分配是為了確保工作能盡快完成,因為在一個工廠中,吞吐量直接關(guān)系到收入、服務(wù)質(zhì)量和可服務(wù)的客戶數(shù)量。如今,我們身處一個數(shù)據(jù)中心吞吐量利用率至關(guān)重要的時代。


過去,雖然吞吐量被認(rèn)為重要,但并非決定性的因素。然而,現(xiàn)在,從啟動時間、運行時間、利用率、吞吐量到空閑時間等每一個參數(shù)都被精確測量,因為數(shù)據(jù)中心已成為真正的“工廠”。在這個工廠中,運作效率直接關(guān)聯(lián)到公司的財務(wù)表現(xiàn)。


鑒于這種復(fù)雜性,我們深知大多數(shù)公司在部署人工智能時面臨的挑戰(zhàn)。因此,我們開發(fā)了一個集成化的人工智能容器解決方案,將人工智能封裝在易于部署和管理的盒子中。這個盒子包含了龐大的軟件集合,如CUDA、CUDACNN和TensorRT,以及Triton推理服務(wù)。它支持云原生環(huán)境,允許在Kubernetes(基于容器技術(shù)的分布式架構(gòu)解決方案)環(huán)境中自動擴(kuò)展,并提供管理服務(wù),方便用戶監(jiān)控人工智能服務(wù)的運行狀態(tài)。

 

更令人振奮的是,這個人工智能容器提供通用的、標(biāo)準(zhǔn)的API接口,使得用戶可以直接與“盒子”進(jìn)行交互。用戶只需下載Nim,并在支持CUDA的計算機(jī)上運行,即可輕松部署和管理人工智能服務(wù)。如今,CUDA已無處不在,它支持各大云服務(wù)提供商,幾乎所有計算機(jī)制造商都提供CUDA支持,甚至在數(shù)億臺PC中也能找到它的身影。


當(dāng)你下載Nim時,即刻擁有一個人工智能助手,它能如與ChatGPT對話般流暢交流,F(xiàn)在,所有的軟件都已精簡并整合在一個容器中,原先繁瑣的400個依賴項全部集中優(yōu)化。我們對Nim進(jìn)行了嚴(yán)格的測試,每個預(yù)訓(xùn)練模型都在我們的云端基礎(chǔ)設(shè)施上得到了全面測試,包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。這些版本種類繁多,幾乎覆蓋了所有需求。


Nim的發(fā)明無疑是一項壯舉,它是我最引以為傲的成就之一。如今,我們有能力構(gòu)建大語言模型和各種預(yù)訓(xùn)練模型,這些模型涵蓋了語言、視覺、圖像等多個領(lǐng)域,還有針對特定行業(yè)如醫(yī)療保健和數(shù)字生物學(xué)的定制版本。

 

想要了解更多或試用這些版本,只需訪問ai.nvidia.com。今天,我們在Hugging Face上發(fā)布了完全優(yōu)化的Llama 3 Nim,你可以立即體驗,甚至免費帶走它。無論你選擇哪個云平臺,都能輕松運行它。當(dāng)然,你也可以將這個容器下載到你的數(shù)據(jù)中心,自行托管,并為你的客戶提供服務(wù)。


我前面提到,我們擁有覆蓋不同領(lǐng)域的Nim版本,包括物理學(xué)、語義檢索、視覺語言等,支持多種語言。這些微服務(wù)可以輕松集成到大型應(yīng)用中,其中最具潛力的應(yīng)用之一是客戶服務(wù)代理。它幾乎是每個行業(yè)的標(biāo)配,代表了價值數(shù)萬億美元的全球客戶服務(wù)市場。


值得一提的是,護(hù)士們作為客戶服務(wù)的核心,在零售、快餐、金融服務(wù)、保險等行業(yè)中發(fā)揮著重要作用。如今,借助語言模型和人工智能技術(shù),數(shù)千萬的客戶服務(wù)人員得到了顯著的增強(qiáng)。這些增強(qiáng)工具的核心,正是你所看到的Nim。


有些被稱為推理智能體(Reasoning Agents),它們被賦予任務(wù)后,能夠明確目標(biāo)并制定計劃。有的擅長檢索信息,有的精于搜索,還有的可能會使用如Coop這樣的工具,或者需要學(xué)習(xí)在SAP上運行的特定語言如ABAP,甚至執(zhí)行SQL查詢。這些所謂的專家現(xiàn)在被組成一個高效協(xié)作的團(tuán)隊。


應(yīng)用層也因此發(fā)生了變革:過去,應(yīng)用程序是由指令編寫的,而現(xiàn)在,它們則是通過組裝人工智能團(tuán)隊來構(gòu)建。雖然編寫程序需要專業(yè)技能,但幾乎每個人都知道如何分解問題并組建團(tuán)隊。因此,我堅信,未來的每家公司都會擁有一個龐大的Nim集合。你可以根據(jù)需要選擇專家,將它們連接成一個團(tuán)隊。


更神奇的是,你甚至不需要弄清楚如何去連接它們。只需給代理分配一個任務(wù),Nim會智能地決定如何分解任務(wù)并分配給最適合的專家。它們就像應(yīng)用程序或團(tuán)隊的中央領(lǐng)導(dǎo)者,能夠協(xié)調(diào)團(tuán)隊成員的工作,最終將結(jié)果呈現(xiàn)給你。


整個過程就像人類團(tuán)隊協(xié)作一樣高效、靈活。這不僅僅是未來的趨勢,而是即將在我們身邊成為現(xiàn)實。這就是未來應(yīng)用程序?qū)⒁尸F(xiàn)的全新面貌。

PC將成為數(shù)字人主要載體


當(dāng)我們談?wù)撆c大型人工智能服務(wù)的交互時,目前我們已經(jīng)可以通過文本和語音提示來實現(xiàn)。但展望未來,我們更希望以更人性化的方式——即數(shù)字人,來進(jìn)行互動。英偉達(dá)在數(shù)字人技術(shù)領(lǐng)域已經(jīng)取得了顯著的進(jìn)展。

 

數(shù)字人不僅具有成為出色交互式代理的潛力,它們還更加吸引人,并可能展現(xiàn)出更高的同理心。然而,要跨越這個令人難以置信的鴻溝,使數(shù)字人看起來和感覺更加自然,我們?nèi)孕韪冻鼍薮蟮呐。這不僅是我們的愿景,更是我們不懈追求的目標(biāo)。


在我向大家展示我們目前的成果之前,請允許我表達(dá)對中國臺灣的熱情問候。在深入探索夜市的魅力之前,讓我們先一同領(lǐng)略數(shù)字人技術(shù)的前沿動態(tài)。


這確實令人覺得不可思議。ACE(Avatar Cloud Engine,英偉達(dá)數(shù)字人技術(shù))不僅能在云端高效運行,同時也兼容PC環(huán)境。我們前瞻性地將Tensor Core GPU集成到所有RTX系列中,這標(biāo)志著人工智能GPU的時代已經(jīng)到來,我們?yōu)榇俗龊昧顺浞譁?zhǔn)備。


背后的邏輯十分清晰:要構(gòu)建一個新的計算平臺,必須先奠定堅實的基礎(chǔ)。有了堅實的基礎(chǔ),應(yīng)用程序自然會隨之涌現(xiàn)。如果缺乏這樣的基礎(chǔ),那么應(yīng)用程序便無從談起。所以,只有當(dāng)我們構(gòu)建了它,應(yīng)用程序的繁榮才有可能實現(xiàn)。


因此,我們在每一款RTX GPU中都集成了Tensor Core處理單元,目前全球已有1億臺GeForce RTX AI PC投入使用,而且這個數(shù)字還在不斷增長,預(yù)計將達(dá)到2億臺。在最近的Computex展會上,我們更是推出了四款全新的人工智能筆記本電腦。


這些設(shè)備都具備運行人工智能的能力。未來的筆記本電腦和PC將成為人工智能的載體,它們將在后臺默默地為你提供幫助和支持。同時,這些PC還將運行由人工智能增強(qiáng)的應(yīng)用程序,無論你是進(jìn)行照片編輯、寫作還是使用其他工具,都將享受到人工智能帶來的便利和增強(qiáng)效果。

 

此外,你的PC還將能夠托管帶有人工智能的數(shù)字人類應(yīng)用程序,讓人工智能以更多樣化的方式呈現(xiàn)并在PC上得到應(yīng)用。顯然,PC將成為至關(guān)重要的人工智能平臺。那么,接下來我們將如何發(fā)展呢?


之前我談到了我們數(shù)據(jù)中心的擴(kuò)展,每次擴(kuò)展都伴隨著新的變革。當(dāng)我們從DGX擴(kuò)展到大型人工智能超級計算機(jī)時,我們實現(xiàn)了Transformer在巨大數(shù)據(jù)集上的高效訓(xùn)練。這標(biāo)志著一個重大的轉(zhuǎn)變:一開始,數(shù)據(jù)需要人類的監(jiān)督,通過人類標(biāo)記來訓(xùn)練人工智能。然而,人類能夠標(biāo)記的數(shù)據(jù)量是有限的,F(xiàn)在,隨著Transformer的發(fā)展,無監(jiān)督學(xué)習(xí)成為可能。


如今,Transformer能夠自行探索海量的數(shù)據(jù)、視頻和圖像,從中學(xué)習(xí)并發(fā)現(xiàn)隱藏的模式和關(guān)系。為了推動人工智能向更高層次發(fā)展,下一代人工智能需要根植于物理定律的理解,但大多數(shù)人工智能系統(tǒng)缺乏對物理世界的深刻認(rèn)識。為了生成逼真的圖像、視頻、3D圖形,以及模擬復(fù)雜的物理現(xiàn)象,我們急需開發(fā)基于物理的人工智能,這要求它能夠理解并應(yīng)用物理定律。


在實現(xiàn)這一目標(biāo)的過程中,有兩個主要方法。首先,通過從視頻中學(xué)習(xí),人工智能可以逐步積累對物理世界的認(rèn)知。其次,利用合成數(shù)據(jù),我們可以為人工智能系統(tǒng)提供豐富且可控的學(xué)習(xí)環(huán)境。此外,模擬數(shù)據(jù)和計算機(jī)之間的互相學(xué)習(xí)也是一種有效的策略。這種方法類似于AlphaGo的自我對弈模式,讓兩個相同能力的實體長時間相互學(xué)習(xí),從而不斷提升智能水平。因此,我們可以預(yù)見,這種類型的人工智能將在未來逐漸嶄露頭角。

Blackwell全面投產(chǎn),八年間算力增長1000倍

當(dāng)人工智能數(shù)據(jù)通過合成方式生成,并結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)時,數(shù)據(jù)生成的速率將得到顯著提升。隨著數(shù)據(jù)生成的增長,對計算能力的需求也將相應(yīng)增加。我們即將邁入一個新時代,在這個時代中,人工智能將能夠?qū)W習(xí)物理定律,理解并基于物理世界的數(shù)據(jù)進(jìn)行決策和行動。因此,我們預(yù)計人工智能模型將繼續(xù)擴(kuò)大,對GPU性能的要求也將越來越高。
為滿足這一需求,Blackwell應(yīng)運而生。這款GPU專為支持新一代人工智能設(shè)計,擁有幾項關(guān)鍵技術(shù)。這種芯片尺寸之大在業(yè)界首屈一指。我們采用了兩片盡可能大的芯片,通過每秒10太字節(jié)的高速鏈接,結(jié)合世界上最先進(jìn)的SerDes(高性能接口或連接技術(shù))將它們緊密連接在一起。進(jìn)一步地,我們將兩片這樣的芯片放置在一個計算機(jī)節(jié)點上,并通過Grace CPU進(jìn)行高效協(xié)調(diào)。


Grace CPU的用途廣泛,不僅適用于訓(xùn)練場景,還在推理和生成過程中發(fā)揮關(guān)鍵作用,如快速檢查點和重啟。此外,它還能存儲上下文,讓人工智能系統(tǒng)擁有記憶,并能理解用戶對話的上下文,這對于增強(qiáng)交互的連續(xù)性和流暢性至關(guān)重要。


我們推出的第二代Transformer引擎進(jìn)一步提升了人工智能的計算效率。這款引擎能夠根據(jù)計算層的精度和范圍需求,動態(tài)調(diào)整至較低的精度,從而在保持性能的同時降低能耗。同時,Blackwell GPU還具備安全人工智能功能,確保用戶能夠要求服務(wù)提供商保護(hù)其免受盜竊或篡改。


在GPU的互聯(lián)方面,我們采用了第五代NV Link技術(shù),它允許我們輕松連接多個GPU。此外,Blackwell GPU還配備了第一代可靠性和可用性引擎(Ras系統(tǒng)),這一創(chuàng)新技術(shù)能夠測試芯片上的每一個晶體管、觸發(fā)器、內(nèi)存以及片外內(nèi)存,確保我們在現(xiàn)場就能準(zhǔn)確判斷特定芯片是否達(dá)到了平均故障間隔時間(MTBF)的標(biāo)準(zhǔn)。


對于大型超級計算機(jī)來說,可靠性尤為關(guān)鍵。擁有10,000個GPU的超級計算機(jī)的平均故障間隔時間可能以小時為單位,但當(dāng)GPU數(shù)量增加至100,000個時,平均故障間隔時間將縮短至以分鐘為單位。因此,為了確保超級計算機(jī)能夠長時間穩(wěn)定運行,以訓(xùn)練那些可能需要數(shù)個月時間的復(fù)雜模型,我們必須通過技術(shù)創(chuàng)新來提高可靠性。而可靠性的提升不僅能夠增加系統(tǒng)的正常運行時間,還能有效降低成本。


最后,我們還在Blackwell GPU中集成了先進(jìn)的解壓縮引擎。在數(shù)據(jù)處理方面,解壓縮速度至關(guān)重要。通過集成這一引擎,我們可以從存儲中拉取數(shù)據(jù)的速度比現(xiàn)有技術(shù)快20倍,從而極大地提升了數(shù)據(jù)處理效率。


Blackwell GPU的上述功能特性使其成為一款令人矚目的產(chǎn)品。在之前的GTC大會上,我曾向大家展示了處于原型狀態(tài)的Blackwell。而現(xiàn)在,我們很高興地宣布,這款產(chǎn)品已經(jīng)投入生產(chǎn)。

 

各位,這就是Blackwell,使用了令人難以置信的技術(shù)。這是我們的杰作,是當(dāng)今世界上最復(fù)雜、性能最高的計算機(jī)。其中,我們特別要提到的是Grace CPU,它承載了巨大的計算能力。請看,這兩個Blackwell芯片,它們緊密相連。你注意到了嗎?這就是世界上最大的芯片,而我們使用每秒高達(dá)A10TB的鏈接將兩片這樣的芯片融為一體。


那么,Blackwell究竟是什么呢?它的性能之強(qiáng)大,簡直令人難以置信。請仔細(xì)觀察這些數(shù)據(jù)。在短短八年內(nèi),我們的計算能力、浮點運算以及人工智能浮點運算能力增長了1000倍。這速度,幾乎超越了摩爾定律在最佳時期的增長。


Blackwell計算能力的增長簡直驚人。而更值得一提的是,每當(dāng)我們的計算能力提高時,成本卻在不斷下降。讓我給你們展示一下。我們通過提升計算能力,用于訓(xùn)練GPT-4模型(2萬億參數(shù)和8萬億Token)的能量下降了350倍。


想象一下,如果使用Pascal進(jìn)行同樣的訓(xùn)練,它將消耗高達(dá)1000吉瓦時的能量。這意味著需要一個吉瓦數(shù)據(jù)中心來支持,但世界上并不存在這樣的數(shù)據(jù)中心。即便存在,它也需要連續(xù)運行一個月的時間。而如果是一個100兆瓦的數(shù)據(jù)中心,那么訓(xùn)練時間將長達(dá)一年。


顯然,沒有人愿意或能夠創(chuàng)造這樣的數(shù)據(jù)中心。這就是為什么八年前,像ChatGPT這樣的大語言模型對我們來說還是遙不可及的夢想。但如今,我們通過提升性能并降低能耗實現(xiàn)了這一目標(biāo)。


我們利用Blackwell將原本需要高達(dá)1000吉瓦時的能量降低到僅需3吉瓦時,這一成就無疑是令人震驚的突破。想象一下,使用1000個GPU,它們所消耗的能量竟然只相當(dāng)于一杯咖啡的熱量。而10,000個GPU,更是只需短短10天左右的時間就能完成同等任務(wù)。八年間取得的這些進(jìn)步,簡直令人難以置信。
圖片

 

Blackwell不僅適用于推理,其在Token生成性能上的提升更是令人矚目。在Pascal時代,每個Token消耗的能量高達(dá)17,000焦耳,這大約相當(dāng)于兩個燈泡運行兩天的能量。而生成一個GPT-4的Token,幾乎需要兩個200瓦特的燈泡持續(xù)運行兩天?紤]到生成一個單詞大約需要3個Token,這確實是一個巨大的能量消耗。


然而,現(xiàn)在的情況已經(jīng)截然不同。Blackwell使得生成每個Token只需消耗0.4焦耳的能量,以驚人的速度和極低的能耗進(jìn)行Token生成。這無疑是一個巨大的飛躍。但即使如此,我們?nèi)圆粷M足。為了更大的突破,我們必須建造更強(qiáng)大的機(jī)器。


這就是我們的DGX系統(tǒng),Blackwell芯片將被嵌入其中。這款系統(tǒng)采用空氣冷卻技術(shù),內(nèi)部配備了8個這樣的GPU。看看這些GPU上的散熱片,它們的尺寸之大令人驚嘆。整個系統(tǒng)功耗約為15千瓦,完全通過空氣冷卻實現(xiàn)。這個版本兼容X86,并已應(yīng)用于我們已發(fā)貨的服務(wù)器中。


然而,如果你更傾向于液體冷卻技術(shù),我們還有一個全新的系統(tǒng)——MGX。它基于這款主板設(shè)計,我們稱之為“模塊化”系統(tǒng)。MGX系統(tǒng)的核心在于兩塊Blackwell芯片,每個節(jié)點都集成了四個Blackwell芯片。它采用了液體冷卻技術(shù),確保了高效穩(wěn)定的運行。


整個系統(tǒng)中,這樣的節(jié)點共有九個,共計72個GPU,構(gòu)成了一個龐大的計算集群。這些GPU通過全新的NV鏈接技術(shù)緊密相連,形成了一個無縫的計算網(wǎng)絡(luò)。NV鏈接交換機(jī)堪稱技術(shù)奇跡。它是目前世界上最先進(jìn)的交換機(jī),數(shù)據(jù)傳輸速率令人咋舌。這些交換機(jī)使得每個Blackwell芯片高效連接,形成了一個巨大的72 GPU集群。
圖片

 

這一集群的優(yōu)勢何在?首先,在GPU域中,它現(xiàn)在表現(xiàn)得就像一個單一的、超大規(guī)模的GPU。這個“超級GPU”擁有72個GPU的核心能力,相較于上一代的8個GPU,性能提升了9倍。同時,帶寬增加了18倍,AI FLOPS(每秒浮點運算次數(shù))更是提升了45倍,而功率僅增加了10倍。也就是說,一個這樣的系統(tǒng)能提供100千瓦的強(qiáng)勁動力,而上一代僅為10千瓦。


當(dāng)然,你還可以將更多的這些系統(tǒng)連接在一起,形成更龐大的計算網(wǎng)絡(luò)。但真正的奇跡在于這個NV鏈接芯片,隨著大語言模型的日益龐大,其重要性也日益凸顯。因為這些大語言模型已經(jīng)不適合單獨放在一個GPU或節(jié)點上運行,它們需要整個GPU機(jī)架的協(xié)同工作。就像我剛才提到的那個新DGX系統(tǒng),它能夠容納參數(shù)達(dá)到數(shù)十萬億的大語言模型。
NV鏈接交換機(jī)本身就是一個技術(shù)奇跡,擁有500億個晶體管,74個端口,每個端口的數(shù)據(jù)速率高達(dá)400 GB。但更重要的是,交換機(jī)內(nèi)部還集成了數(shù)學(xué)運算功能,可以直接進(jìn)行歸約操作,這在深度學(xué)習(xí)中具有極其重要的意義。這就是現(xiàn)在的DGX系統(tǒng)的全新面貌。


許多人對我們表示好奇。他們提出疑問,對英偉達(dá)的業(yè)務(wù)范疇存在誤解。人們疑惑,英偉達(dá)怎么可能僅憑制造GPU就變得如此龐大。因此,很多人形成了這樣一種印象:GPU就應(yīng)該是某種特定的樣子。


然而,現(xiàn)在我要展示給你們的是,這確實是一個GPU,但它并非你們想象中的那種。這是世界上最先進(jìn)的GPU之一,但它主要用于游戲領(lǐng)域。但我們都清楚,GPU的真正力量遠(yuǎn)不止于此。


各位,請看這個,這才是GPU的真正形態(tài)。這是DGX GPU,專為深度學(xué)習(xí)而設(shè)計。這個GPU的背面連接著NV鏈接主干,這個主干由5000條線組成,長達(dá)3公里。這些線,就是NV鏈接主干,它們連接了70個GPU,形成一個強(qiáng)大的計算網(wǎng)絡(luò)。這是一個電子機(jī)械奇跡,其中的收發(fā)器讓我們能夠在銅線上驅(qū)動信號貫穿整個長度。


因此,這個NV鏈接交換機(jī)通過NV鏈接主干在銅線上傳輸數(shù)據(jù),使我們能夠在單個機(jī)架中節(jié)省20千瓦的電力,而這20千瓦現(xiàn)在可以完全用于數(shù)據(jù)處理,這的確是一項令人難以置信的成就。這就是NV鏈接主干的力量。

為生成式AI推以太網(wǎng)


但這還不足以滿足需求,特別是對于大型人工智能工廠來說更是如此,那么我們還有另一種解決方案。我們必須使用高速網(wǎng)絡(luò)將這些人工智能工廠連接起來。我們有兩種網(wǎng)絡(luò)選擇:InfiniBand和以太網(wǎng)。其中,InfiniBand已經(jīng)在全球各地的超級計算和人工智能工廠中廣泛使用,并且增長迅速。然而,并非每個數(shù)據(jù)中心都能直接使用InfiniBand,因為他們在以太網(wǎng)生態(tài)系統(tǒng)上進(jìn)行了大量投資,而且管理InfiniBand交換機(jī)和網(wǎng)絡(luò)確實需要一定的專業(yè)知識和技術(shù)。


因此,我們的解決方案是將InfiniBand的性能帶到以太網(wǎng)架構(gòu)中,這并非易事。原因在于,每個節(jié)點、每臺計算機(jī)通常與互聯(lián)網(wǎng)上的不同用戶相連,但大多數(shù)通信實際上發(fā)生在數(shù)據(jù)中心內(nèi)部,即數(shù)據(jù)中心與互聯(lián)網(wǎng)另一端用戶之間的數(shù)據(jù)傳輸。然而,在人工智能工廠的深度學(xué)習(xí)場景下,GPU并不是與互聯(lián)網(wǎng)上的用戶進(jìn)行通信,而是彼此之間進(jìn)行頻繁的、密集的數(shù)據(jù)交換。


它們相互通信是因為它們都在收集部分結(jié)果。然后它們必須將這些部分結(jié)果進(jìn)行規(guī)約(reduce)并重新分配(redistribute)。這種通信模式的特點是高度突發(fā)性的流量。重要的不是平均吞吐量,而是最后一個到達(dá)的數(shù)據(jù),因為如果你正在從所有人那里收集部分結(jié)果,并且我試圖接收你所有的部分結(jié)果,如果最后一個數(shù)據(jù)包晚到了,那么整個操作就會延遲。對于人工智能工廠而言,延遲是一個至關(guān)重要的問題。


所以,我們關(guān)注的焦點并非平均吞吐量,而是確保最后一個數(shù)據(jù)包能夠準(zhǔn)時、無誤地抵達(dá)。然而,傳統(tǒng)的以太網(wǎng)并未針對這種高度同步化、低延遲的需求進(jìn)行優(yōu)化。為了滿足這一需求,我們創(chuàng)造性地設(shè)計了一個端到端的架構(gòu),使NIC(網(wǎng)絡(luò)接口卡)和交換機(jī)能夠通信。為了實現(xiàn)這一目標(biāo),我們采用了四種關(guān)鍵技術(shù):


第一,英偉達(dá)擁有業(yè)界領(lǐng)先的RDMA(遠(yuǎn)程直接內(nèi)存訪問)技術(shù),F(xiàn)在,我們有了以太網(wǎng)網(wǎng)絡(luò)級別的RDMA,它的表現(xiàn)非常出色。
第二,我們引入了擁塞控制機(jī)制。交換機(jī)具備實時遙測功能,能夠迅速識別并響應(yīng)網(wǎng)絡(luò)中的擁塞情況。當(dāng)GPU或NIC發(fā)送的數(shù)據(jù)量過大時,交換機(jī)會立即發(fā)出信號,告知它們減緩發(fā)送速率,從而有效避免網(wǎng)絡(luò)熱點的產(chǎn)生。
第三,我們采用了自適應(yīng)路由技術(shù)。傳統(tǒng)以太網(wǎng)按固定順序傳輸數(shù)據(jù),但在我們的架構(gòu)中,我們能夠根據(jù)實時網(wǎng)絡(luò)狀況進(jìn)行靈活調(diào)整。當(dāng)發(fā)現(xiàn)擁塞或某些端口空閑時,我們可以將數(shù)據(jù)包發(fā)送到這些空閑端口,再由另一端的Bluefield設(shè)備重新排序,確保數(shù)據(jù)按正確順序返回。這種自適應(yīng)路由技術(shù)極大地提高了網(wǎng)絡(luò)的靈活性和效率。
第四,我們實施了噪聲隔離技術(shù)。在數(shù)據(jù)中心中,多個模型同時訓(xùn)練產(chǎn)生的噪聲和流量可能會相互干擾,并導(dǎo)致抖動。我們的噪聲隔離技術(shù)能夠有效地隔離這些噪聲,確保關(guān)鍵數(shù)據(jù)包的傳輸不受影響。


通過采用這些技術(shù),我們成功地為人工智能工廠提供了高性能、低延遲的網(wǎng)絡(luò)解決方案。在價值高達(dá)數(shù)十億美元的數(shù)據(jù)中心中,如果網(wǎng)絡(luò)利用率提升40%而訓(xùn)練時間縮短20%,這實際上意味著價值50億美元的數(shù)據(jù)中心在性能上等同于一個60億美元的數(shù)據(jù)中心,揭示了網(wǎng)絡(luò)性能對整體成本效益的顯著影響。


幸運的是,帶有Spectrum X的以太網(wǎng)技術(shù)正是我們實現(xiàn)這一目標(biāo)的關(guān)鍵,它大大提高了網(wǎng)絡(luò)性能,使得網(wǎng)絡(luò)成本相對于整個數(shù)據(jù)中心而言幾乎可以忽略不計。這無疑是我們在網(wǎng)絡(luò)技術(shù)領(lǐng)域取得的一大成就。


我們擁有一系列強(qiáng)大的以太網(wǎng)產(chǎn)品線,其中最引人注目的是Spectrum X800。這款設(shè)備以每秒51.2 TB的速度和256路徑(radix)的支持能力,為成千上萬的GPU提供了高效的網(wǎng)絡(luò)連接。接下來,我們計劃一年后推出X800 Ultra,它將支持高達(dá)512路徑的512 radix,進(jìn)一步提升了網(wǎng)絡(luò)容量和性能。而X 1600則是為更大規(guī)模的數(shù)據(jù)中心設(shè)計的,能夠滿足數(shù)百萬個GPU的通信需求。

 

隨著技術(shù)的不斷進(jìn)步,數(shù)百萬個GPU的數(shù)據(jù)中心時代已經(jīng)指日可待。這一趨勢的背后有著深刻的原因。一方面,我們渴望訓(xùn)練更大、更復(fù)雜的模型;但更重要的是,未來的互聯(lián)網(wǎng)和計算機(jī)交互將越來越多地依賴于云端的生成式人工智能。這些人工智能將與我們一起工作、互動,生成視頻、圖像、文本甚至數(shù)字人。因此,我們與計算機(jī)的每一次交互幾乎都離不開生成式人工智能的參與。并且總是有一個生成式人工智能與之相連,其中一些在本地運行,一些在你的設(shè)備上運行,很多可能在云端運行。


這些生成式人工智能不僅具備強(qiáng)大的推理能力,還能對答案進(jìn)行迭代優(yōu)化,以提高答案的質(zhì)量。這意味著我們未來將產(chǎn)生海量的數(shù)據(jù)生成需求。今晚,我們共同見證了這一技術(shù)革新的力量。


Blackwell,作為NVIDIA平臺的第一代產(chǎn)品,自推出以來便備受矚目。如今,全球范圍內(nèi)都迎來了生成式人工智能的時代,這是一個全新的工業(yè)革命的開端,每個角落都在意識到人工智能工廠的重要性。我們深感榮幸,獲得了來自各行各業(yè)的廣泛支持,包括每一家OEM(原始設(shè)備制造商)、電腦制造商、CSP(云服務(wù)提供商)、GPU云、主權(quán)云以及電信公司等。


Blackwell的成功、廣泛的采用以及行業(yè)對其的熱情都達(dá)到了前所未有的高度,這讓我們深感欣慰,并在此向大家表示衷心的感謝。然而,我們的腳步不會因此而停歇。在這個飛速發(fā)展的時代,我們將繼續(xù)努力提升產(chǎn)品性能,降低培訓(xùn)和推理的成本,同時不斷擴(kuò)展人工智能的能力,使每一家企業(yè)都能從中受益。我們堅信,隨著性能的提升,成本將進(jìn)一步降低。而Hopper平臺,無疑可能是歷史上最成功的數(shù)據(jù)中心處理器。

 

Blackwell Ultra將于明年發(fā)布,下一代平臺名為Rubin


這確實是一個震撼人心的成功故事。Blackwell平臺的誕生,正如大家所見,并非單一組件的堆砌,而是一個綜合了CPU、GPU、NVLink、NICK(特定技術(shù)組件)以及NVLink交換機(jī)等多個元素的完整系統(tǒng)。我們致力于通過每代產(chǎn)品使用大型、超高速的交換機(jī)將所有GPU緊密連接,形成一個龐大且高效的計算域。


我們將整個平臺集成到人工智能工廠中,但更為關(guān)鍵的是,我們將這一平臺以模塊化的形式提供給全球客戶。這樣做的初衷在于,我們期望每一位合作伙伴都能根據(jù)自身的需求,創(chuàng)造出獨特且富有創(chuàng)新性的配置,以適應(yīng)不同風(fēng)格的數(shù)據(jù)中心、不同的客戶群體和多樣化的應(yīng)用場景。從邊緣計算到電信領(lǐng)域,只要系統(tǒng)保持開放,各種創(chuàng)新都將成為可能。
為了讓你們能夠自由創(chuàng)新,我們設(shè)計了一個一體化的平臺,但同時又以分解的形式提供給你們,使你們能夠輕松構(gòu)建模塊化系統(tǒng),F(xiàn)在,Blackwell平臺已經(jīng)全面登場。


英偉達(dá)始終堅持每年一次的更新節(jié)奏。我們的核心理念非常明確:1)構(gòu)建覆蓋整個數(shù)據(jù)中心規(guī)模的解決方案;2)將這些解決方案分解為各個部件,以每年一次的頻率向全球客戶推出;3)我們不遺余力地將所有技術(shù)推向極限,無論是臺積電的工藝技術(shù)、封裝技術(shù)、內(nèi)存技術(shù),還是光學(xué)技術(shù)等,我們都追求極致的性能表現(xiàn)。


在完成硬件的極限挑戰(zhàn)后,我們將全力以赴確保所有軟件都能在這個完整的平臺上順暢運行。在計算機(jī)技術(shù)中,軟件慣性至關(guān)重要。當(dāng)我們的計算機(jī)平臺能夠向后兼容,且架構(gòu)上與已有軟件完美契合時,產(chǎn)品的上市速度將顯著提升。因此,當(dāng)Blackwell平臺問世時,我們能夠充分利用已構(gòu)建的軟件生態(tài)基礎(chǔ),實現(xiàn)驚人的市場響應(yīng)速度。明年,我們將迎來Blackwell Ultra。


正如我們曾推出的H100和H200系列一樣,Blackwell Ultra也將引領(lǐng)新一代產(chǎn)品的熱潮,帶來前所未有的創(chuàng)新體驗。同時,我們將繼續(xù)挑戰(zhàn)技術(shù)的極限,推出下一代頻譜交換機(jī),這是行業(yè)內(nèi)的首次嘗試。這一重大突破已經(jīng)成功實現(xiàn),盡管我現(xiàn)在對于公開這個決定還心存些許猶豫。


在英偉達(dá)內(nèi)部,我們習(xí)慣于使用代碼名并保持一定的保密性。很多時候,連公司內(nèi)部的大多數(shù)員工都不甚了解這些秘密。然而,我們的下一代平臺已被命名為Rubin。關(guān)于Rubin,我不會在此過多贅述。我深知大家的好奇心,但請允許我保持一些神秘感。你們或許已經(jīng)迫不及待想要拍照留念,或是仔細(xì)研究那些小字部分,那就請隨意吧。
我們不僅有Rubin平臺,一年后還將推出Rubin Ultra平臺。在此展示的所有芯片都處于全面開發(fā)階段,確保每一個細(xì)節(jié)都經(jīng)過精心打磨。我們的更新節(jié)奏依然是一年一次,始終追求技術(shù)的極致,同時確保所有產(chǎn)品都保持100%的架構(gòu)兼容性。

 

回顧過去的12年,從Imagenet誕生的那一刻起,我們就預(yù)見到計算領(lǐng)域的未來將會發(fā)生翻天覆地的變化。如今,這一切都成為了現(xiàn)實,與我們當(dāng)初的設(shè)想不謀而合。從2012年之前的GeForce到如今的英偉達(dá),公司經(jīng)歷了巨大的轉(zhuǎn)變。在此,我要衷心感謝所有合作伙伴的一路支持與陪伴。

機(jī)器人時代已經(jīng)到來


這就是英偉達(dá)的Blackwell平臺,接下來,讓我們談?wù)勅斯ぶ悄芘c機(jī)器人相結(jié)合的未來。 物理人工智能正引領(lǐng)人工智能領(lǐng)域的新浪潮,它們深諳物理定律,并能自如地融入我們的日常生活。為此,物理人工智能不僅需要構(gòu)建一個精準(zhǔn)的世界模型,以理解如何解讀和感知周圍世界,更需具備卓越的認(rèn)知能力,以深刻理解我們的需求并高效執(zhí)行任務(wù)。


展望未來,機(jī)器人技術(shù)將不再是一個遙不可及的概念,而是日益融入我們的日常生活。當(dāng)提及機(jī)器人技術(shù)時,人們往往會聯(lián)想到人形機(jī)器人,但實際上,它的應(yīng)用遠(yuǎn)不止于此。機(jī)械化將成為常態(tài),工廠將全面實現(xiàn)自動化,機(jī)器人將協(xié)同工作,制造出一系列機(jī)械化產(chǎn)品。它們之間的互動將更加密切,共同創(chuàng)造出一個高度自動化的生產(chǎn)環(huán)境。


為了實現(xiàn)這一目標(biāo),我們需要克服一系列技術(shù)挑戰(zhàn)。接下來,我將通過視頻展示這些前沿技術(shù)。


這不僅僅是對未來的展望,它正逐步成為現(xiàn)實。


我們將通過多種方式服務(wù)市場。首先,我們致力于為不同類型的機(jī)器人系統(tǒng)打造平臺:機(jī)器人工廠與倉庫專用平臺、物體操縱機(jī)器人平臺、移動機(jī)器人平臺,以及人形機(jī)器人平臺。這些機(jī)器人平臺與我們其他眾多業(yè)務(wù)一樣,依托于計算機(jī)加速庫和預(yù)訓(xùn)練模型。


我們運用計算機(jī)加速庫、預(yù)訓(xùn)練模型,并在Omniverse中進(jìn)行全方位的測試、訓(xùn)練和集成。正如視頻所示,Omniverse是機(jī)器人學(xué)習(xí)如何更好地適應(yīng)現(xiàn)實世界的地方。當(dāng)然,機(jī)器人倉庫的生態(tài)系統(tǒng)極為復(fù)雜,需要眾多公司、工具和技術(shù)來共同構(gòu)建現(xiàn)代化的倉庫。如今,倉庫正逐步邁向全面機(jī)械化,終有一天將實現(xiàn)完全自動化。


在這樣一個生態(tài)系統(tǒng)中,我們?yōu)檐浖袠I(yè)、邊緣人工智能行業(yè)和公司提供了SDK和API接口,同時也為PLC和機(jī)器人系統(tǒng)設(shè)計了專用系統(tǒng),以滿足國防部等特定領(lǐng)域的需求。這些系統(tǒng)通過集成商整合,最終為客戶打造高效、智能的倉庫。舉個例子,Ken Mac正在為Giant Giant集團(tuán)構(gòu)建一座機(jī)器人倉庫。


接下來,讓我們聚焦工廠領(lǐng)域。工廠的生態(tài)系統(tǒng)截然不同。以富士康為例,他們正在建設(shè)世界上一些最先進(jìn)的工廠。這些工廠的生態(tài)系統(tǒng)同樣涵蓋了邊緣計算機(jī)、機(jī)器人軟件,用于設(shè)計工廠布局、優(yōu)化工作流程、編程機(jī)器人,以及用于協(xié)調(diào)數(shù)字工廠和人工智能工廠的PLC計算機(jī)。我們同樣為這些生態(tài)系統(tǒng)中的每一個環(huán)節(jié)提供了SDK接口。
這樣的變革正在全球范圍內(nèi)上演。富士康和Delta正為其工廠構(gòu)建數(shù)字孿生設(shè)施,實現(xiàn)現(xiàn)實與數(shù)字的完美融合,而Omniverse在其中扮演了至關(guān)重要的角色。同樣值得一提的是,和碩與Wistron也在緊隨潮流,為各自的機(jī)器人工廠建立數(shù)字孿生設(shè)施。


這確實令人興奮。接下來,請欣賞一段富士康新工廠的精彩視頻。


機(jī)器人工廠由三個主要計算機(jī)系統(tǒng)組成,在NVIDIA AI平臺上訓(xùn)練人工智能模型,我們確保機(jī)器人在本地系統(tǒng)上高效運行以編排工廠流程。同時,我們利用Omniverse這一模擬協(xié)作平臺,對包括機(jī)械臂和AMR(自主移動機(jī)器人)在內(nèi)的所有工廠元素進(jìn)行模擬。值得一提的是,這些模擬系統(tǒng)均共享同一個虛擬空間,實現(xiàn)無縫的交互與協(xié)作。
當(dāng)機(jī)械臂和AMR進(jìn)入這個共享的虛擬空間時,它們能夠在Omniverse中模擬出真實的工廠環(huán)境,確保在實際部署前進(jìn)行充分的驗證和優(yōu)化。


為了進(jìn)一步提升解決方案的集成度和應(yīng)用范圍,我們提供了三款高性能計算機(jī),并配備了加速層和預(yù)訓(xùn)練人工智能模型。此外,我們已成功將NVIDIA Manipulator和Omniverse與西門子的工業(yè)自動化軟件和系統(tǒng)相結(jié)合。這種合作使得西門子在全球各地的工廠中都能夠?qū)崿F(xiàn)更高效的機(jī)器人操作和自動化。
圖片

 

除了西門子,我們還與多家知名企業(yè)建立了合作關(guān)系。例如,Symantec Pick AI已經(jīng)集成了NVIDIA Isaac Manipulator,而Somatic Pick AI則成功運行并操作了ABB、KUKA、Yaskawa Motoman等知名品牌的機(jī)器人。


機(jī)器人技術(shù)和物理人工智能的時代已經(jīng)到來,它們正在各地被廣泛應(yīng)用,這并非科幻,而是現(xiàn)實,令人倍感振奮。展望未來,工廠內(nèi)的機(jī)器人將成為主流,它們將制造所有的產(chǎn)品,其中兩個高產(chǎn)量機(jī)器人產(chǎn)品尤為引人注目。首先是自動駕駛汽車或具備高度自主能力的汽車,英偉達(dá)再次憑借其全面的技術(shù)堆棧在這一領(lǐng)域發(fā)揮了核心作用。明年,我們計劃與梅賽德斯-奔馳車隊攜手,隨后在2026年與捷豹路虎(JLR)車隊合作。我們提供完整的解決方案堆棧,但客戶可根據(jù)需求選擇其中的任何部分或?qū)蛹墸驗檎麄驅(qū)動堆棧都是開放和靈活的。


接下來,另一個可能由機(jī)器人工廠高產(chǎn)量制造的產(chǎn)品是人形機(jī)器人。近年來,在認(rèn)知能力和世界理解能力方面取得了巨大突破,這一領(lǐng)域的發(fā)展前景令人期待。我對人形機(jī)器人特別興奮,因為它們最有可能適應(yīng)我們?yōu)槿祟愃鶚?gòu)建的世界。


與其他類型的機(jī)器人相比,訓(xùn)練人形機(jī)器人需要大量的數(shù)據(jù)。由于我們擁有相似的體型,通過演示和視頻能力提供的大量訓(xùn)練數(shù)據(jù)將極具價值。因此,我們預(yù)計這一領(lǐng)域?qū)⑷〉蔑@著的進(jìn)步。


 

現(xiàn)在,讓我們歡迎一些特別的機(jī)器人朋友。機(jī)器人時代已經(jīng)來臨,這是人工智能的下一波浪潮。中國臺灣制造的計算機(jī)種類繁多,既有配備鍵盤的傳統(tǒng)機(jī)型,也有小巧輕便、便于攜帶的移動設(shè)備,以及為云端數(shù)據(jù)中心提供強(qiáng)大算力的專業(yè)設(shè)備。但展望未來,我們將見證一個更為激動人心的時刻——制造會走路、四處滾動的計算機(jī),即智能機(jī)器人。
這些智能機(jī)器人與我們所熟知的計算機(jī)在技術(shù)上有著驚人的相似性,它們都是基于先進(jìn)的硬件和軟件技術(shù)構(gòu)建的。因此,我們有理由相信,這將是一段真正非凡的旅程!

 

 

 

北京漢深流體技術(shù)有限公司 Hansen Fluid
丹佛斯簽約中國經(jīng)銷商 Danfoss Authorized Distributor

地址:北京市朝陽區(qū)望京街10號望京SOHO塔1C座2115室
郵編:100102
電話:010-8428 2935 , 8428 3983 , 13910962635
手機(jī):15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://shanghaining.com.cn
E-mail:sales@cnmec.biz

傳真:010-8428 8762

京ICP備2023024665號
京公網(wǎng)安備 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships