用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

採寫 | 魚三隹

編輯 | 靖宇

「下一個時代的 AI」,在北京時間 3 月 22 日的英偉達 GTC 大會上,長達 1 小時 40 分鐘的主題演講中,創始人黃仁勳多次說起這個詞。

黑色的虛擬場景中,黃仁勳有條不紊地介紹了一系列服務於 AI 運算的硬體、軟體、AI 和機器人的應用框架,並介紹了英偉達過去一段時間藉助 AI 在自動駕駛、虛擬世界、醫療等領域的成就。

去年 11 月秋季的 GTC2021 上,黃仁勳曾高調宣佈「進軍元宇宙」,相比之下,此次的 GTC2022 聚焦的問題則接地氣的多。

誕生至今,「元宇宙」從被行業熱捧,到成為「不切實際」的代名詞,可謂大起大落。冷靜之後還未離場的元宇宙玩家們,不得不思考一個嚴肅的問題:要到達如此之遠的未來,該從哪些事情做起。

「AI」,是英偉達抓住的元宇宙命門。

對於元宇宙而言,影象處理、生成能力面臨千萬級別的提升,而 AI 恰能進行更為複雜、更為精細的影象處理,無論是在複製模擬,還是在創新構建等方面,AI 都是不可或缺的基礎。

「AI」背後更為基礎、更為關鍵的是「算力」。

歷經十幾年的發展,越來越多的資料被彙集,越來越多的大型演算法模型誕生,隨之而來的是有待處理的資料與引數的急劇上升。

有專業人士認為,要想實現《雪崩》中所描繪的元宇宙景象,起碼需要 1000 倍的算力增長,蘋果、特斯拉、Meta 等行業巨頭也正逐漸轉向晶片自研與定製。

行業呼喚更高效的計算硬體基礎,面對突如其來殺到門口的「野蠻人」,英偉達選擇主動出擊。

此次英偉達無論是釋出基於全新架構 Hopper 的 H100 GPU、Grace CPU,還是展現自身在 AI 軟體方面的進展,無不透露出其對於搶立下一代 AI 潮頭的佈局與野心。

算力:重中之重

NVIDIA H100

主題演講中,首先發布的是 H100,這是首款基於全新 Hopper 架構的 GPU。

NVIDIA H100 採用的是 TSMC 4N(臺積電 4 奈米)工藝,整合 800 億個電晶體,顯著提升了 AI、HPC、視訊記憶體頻寬、互連和通訊的速度,並能夠實現近 5TB/s 的外部互聯頻寬。

20 塊 H100

GPU

可以承擔起全球網際網路的流量

!」黃仁勳在會上豪邁宣佈。

H100 實現了數量級的效能飛躍,是英偉達有史以來最大的圖形處理器之一。其 FP8 算力是 4PetaFLOPS,FP16 則為 2PetaFLOPS,TF32 算力為 1PetaFLOPS,FP64 和 FP32 算力為 60TeraFLOPS。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

NVIDIA H100 | 英偉達

H100 的大規模訓練效能是「前輩」A100 的 9 倍,大型語言模型推理的吞吐量是 A100 的 30 倍,

與此同時,Hopper 還專門為 Transformer 打造了專有引擎,這將使得原本耗時幾周的訓練縮短到幾天之內。在模型訓練精度不變的情況下,效能提升 6 倍。

此外,H100 還是全球首款具有機密計算功能的加速器,無論是 AI 模型還是客戶資料都將受到保護。

Grace CPU 超級晶片

在 H100 之外,被黃仁勳稱為「全球 AI 基礎架構的理想 CPU」的 Grace CPU 同樣毫不遜色。

Grace CPU 是英偉達首款面向 AI 基礎設施和高效能計算的專屬 CPU,基於最新的資料中心架構 Arm v9,由兩個 CPU 晶片組成,擁有 144 核 CPU,功耗 500W,效能較之前提升了兩到三倍。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Grace CPU | 英偉達

兩塊 CPU 透過 NVLink 連線,該技術可以實現晶片之間的互聯,具有高速率、低時延的特點。Grace CPU 與 Hopper 也可以透過 NVLink 進行各種定製化配置。

NVLink 技術未來將會被廣泛應用與 NVIDIA 的晶片中,包括 CPU、GPU、DPU 以及 SoC,憑藉此技術,英偉達的使用者們將能夠利用英偉達的平臺實現晶片的半定製化構建。

EoS 全球最快的 AI 超算

算力不夠,數量來湊。

透過黃仁勳的講解我們可以得知,8 個 H100 和 4 個 NVLink 可以組合成 DGX H100,這個巨型 GPU 擁有 6400 億電晶體,AI 算力 32 petaFLOPS;32 臺 DGX H100 又能組成一臺具有 256 塊 GPU 的 DGX POD;而將 18 個 DGX POD,共 4608 個 GPU 搭建在一起,則是英偉達此次宣佈的 EoS 超算。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

DGX H100 | 英偉達

最終 EoS 能達到的算力,以傳統超算標準看是 275petaFLOPS,將是此前基於 A100 的美國最大超算 Summit 的 1。4 倍;以 AI 計算的角度看,EoS 輸出 18。4 Exaflops,將是當今全球第一超算富嶽的四倍。

屆時,EoS 將是世界上最快的 AI 超級計算機。

軟體:穩步更新

在軟體系統方面,英偉達依舊穩步更新。

此次英偉達釋出了 60 幾項針對 CUDA-X 的一系列庫、工具和技術的更新,並介紹了自己在氣候預測、對話式 AI 服務 Riva 以及推薦系統 Merlin 框架方面的進展。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Earth-2 | 英偉達

去年的 GTC2021 上,英偉達釋出了首臺 AI 數字孿生超級計算機 Earth-2,幾個月過去,英偉達基於此開發了一個天氣預報 AI 模型 FourCastNet。

這一模型由英偉達與來自加州理工學院、伯克利實驗室等高校及科研機構的研究員們共同開發,透過對高達 10TB 的地球系統資料進行訓練,預測降水機率的準確率比以往的模型更高。

隨後,黃仁勳又介紹了英偉達的對話式 AI 服務 Riva。

Riva 2。0 版本支援識別 7 種語言,可將神經文字轉換為不同性別發聲的語音,使用者可透過其 TAO 遷移學習工具包進行自定義調優。

Maxine 是一個包含 30 個 AI 模型的工具包,可以實時最佳化影片通訊的視聽效果。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Maxine | 英偉達

當遠端影片會議召開時,即便你在讀稿或者瀏覽其他網頁,Maxine 可以幫助說話者與參會的其他人員保持視線上的交流。如果參會人員包含不同國籍、使用不同語言,Maxine 能夠透過 AI 模型實時切換成另一國語言。

Merlin 框架面向的則是推薦系統。

元宇宙與新一輪 AI 浪潮

在提升算力、補齊 CPU 短板的同時,英偉達也沒忘記自己最終追求的元宇宙的「星辰大海」。

黃仁勳的虛擬形象 Toy Jensen 又一次上場與本尊進行對話,而值得注意的是,這一次的 Toy Jensen 能夠做到完全實時地與黃仁勳進行眼神交流與對話。

面對「什麼是合成生物學」、「你是如何製作出來的」等刁鑽問題,Toy Jensen 都給出了流暢的回答。

Toy Jensen 的背後是英偉達的 Omniverse Avatar 框架,該框架能使企業快速構建出類似的虛擬形象,無論是外表、動作還是聲音能都模仿得惟妙惟肖。

而實時對話這一點則是由上文提到的 Riva 以及超大語言模型 Megatron 530B NLP 提供的技術支撐,虛擬形象由此可以聽懂問題並實時回覆。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Toy Jensen與黃仁勳對話 | 英偉達

構建虛擬形象、進行實時互動無疑是未來元宇宙世界中的常態,在短短几分鐘的展示裡,英偉達告訴我們這似乎並非毫無可能。

此外,在黃仁勳看來,新的晶片、軟體和模擬功能將掀起「新一輪 AI 浪潮」,第一波 AI 學習是感知與推理,而下一波 AI 發展的方向則是機器人。

目前,英偉達圍繞真實資料生成、AI 模型訓練、機器人堆疊和 Omniverse 數字孿生這四大支柱,逐步搭建起了應用於虛擬形象的 NVIDIA Avatar、用於自動駕駛的 DRIVE、用於操縱和控制系統的 Metropolis、用於自主式基礎架構的 Isaac 和 用於醫療裝置的 Holoscan 等端到端全棧機器人平臺。

主題演講最後,黃仁勳用大概 8 分鐘的時間,帶領觀眾們從頭梳理了一遍新發布的技術、產品以及平臺,並總結出了影響行業發展的 5 個趨勢:million-X 百萬倍計算速度飛躍,大幅加快 AI 速度的 Transformers,成為 AI 工廠的資料中心,對機器人系統的需求呈指數級增長以及下一個 AI 時代的數字孿生。

而「算力」提升仍將是一切突破的基礎。

「我們將在未來十年以資料中心規模加速整個堆疊,再次實現 million-X 百萬倍效能飛躍。我已經迫不及待地想看到下一次百萬倍效能飛躍將帶來什麼。」