WAIC 2021｜華為黃之鵬：下一代AI基礎軟體能力展望

機器之心報道

機器之心編輯部

在 WAIC 2021 AI 開發者論壇上，黃之鵬發表主題演講《下一代 AI 基礎軟體能力展望》，在演講中，他主要介紹了下一代 AI 基礎軟體核心能力的突破方向與著力點，闡述了未來的深度學習框架的發展走向。

以下為黃之鵬在 WAIC 2021 AI 開發者論壇上的演講內容，機器之心進行了不改變原意的編輯、整理：

今天一天，整個論壇幾乎覆蓋了所有深度學習發展的最關鍵部分。我這部分內容作為論壇的最後一部分，還是很合適的。因為，剛才講了很多的硬體，也講了很多演算法；包括很多應用，但是要實現所有的這一切，都離不開一些基礎的軟體，包括底層軟體的生態。

今天演講的文稿是基於前一陣在 CCF ADL workshop 的材料編輯的。如果大家對這塊技術比較感興趣的話，那麼接下來，可能會看到一個略帶詭異卻又非常有趣的演講。

一、AI 基礎框架發展史

首先，希望大家轉換一下視角。至少在我見過的講人工智慧或者深度學習的講義、講座，基本都會遵從線性敘事，內容基本都是幾次高潮、幾次低潮。那麼，有沒有可能轉換一個視角呢。

如果跳脫出演算法之外，我們支撐演算法的實現——這些具體的底層軟體和硬體，這些工具有沒有反過來促進整個人工智慧技術發展？或者說，在最常見的（人工智慧發展史）時間維度之前和之後，有沒有一些有趣的事情發生呢？

AI 工具理性主義——從艾舍爾的龍到哥德爾機器

首先講一個背景，今年是哥德爾釋出「不完備定理」90 週年。我這裡擺的一本書很有名，叫 GEB，講的是哥德爾、艾舍爾、巴赫，三者思想的連結。其中「艾舍爾的龍」是在試圖利用二維化手法表現三維故事；可以看得出該過程非常困難。「哥德爾不完備定理」本來應用在數論當中；其實該定理是對之前羅素、懷特海所建立的整個公理邏輯基礎的一次論證或者推翻。「哥德爾不完備定理」的偉大之處在於它可以泛化到很多領域，比如人工智慧領域。可以看到，如果單純用一階邏輯，我們可能永遠沒有辦法達到 AGI。AGI 一直是所有業界做 AI 的人希望達到終極的目標。為了達成這個目標，最終還是需要非一階化的系統，這個系統需要邏輯本身再加上實驗經驗。以上所講的這一切，想給大家傳遞一個整體思路，即深度學習發展是邏輯和實現邏輯的工具的糾纏演化的過程。那麼，今天我們是把視角放在工具上。

AI 工具理性主義——史前時代

剛才說到，我們希望看一下從「慣性敘事時間點」之前和之後，從工具角度看發生的事情，是不是也會有收穫。我們「慣性認為的計算機時代」的開始，是埃尼阿克（ENIAC）時代或者說二戰之後；在那個時間點之前，科技一直是進步的。而且，我們一般會把萊布尼茨（Leibniz）作為現代人工智慧所有技術、理論基礎的起點。

其實在這個時間點很久之前，科技界便一直在持續對人工智慧做探索。第一臺設計出來的要完整實現邏輯的機器，是由世界第一個女程式設計師洛芙萊斯（Ada Lovelace）和她的丈夫巴貝奇（Charles Babbage）設計的。機器沒有最終實現，巴貝奇含恨而終。

世界上第一個可以下棋的機器，在 1914 年就出現了；該機器是由西班牙科學家設計的。30 年代初哥德爾、丘奇、圖靈發表了三篇關鍵的論文；這三篇論文基本上奠定了現在計算機科學所有理論的基礎。

在 1936 年，出現了第一個可以工作的可程式設計通用機器，該機器由瑞士 Zuses 發明，被命名為 Z3 機器。

以上我們可以看出，人類工具、軟體和硬體的持續演化已經支撐了人工智慧基礎技術持續百年的發展。再往後看，這是跟今天演講非常貼近的主題。

AI 工具理性主義——後現代

從 2010 年開始，支撐深度學習發展最重要的是框架，包括支撐框架的基礎軟體。如果沒有這些軟體的發展，我們就不可能看到剛剛嘉賓講的這麼多已經實現的模型、系統。

從圖中大家可以看到，框架時間線非常明顯地存在著斷代。它也明顯對應著深度學習資料集、模型開發能力在幾個時期內不同的爆發點。最近一次爆發是去年，尤其是以中國為主，有很多新興開源框架誕生。

我現在負責的是去年三月底華為開源的 MindSpore。這是華為自研的深度學習演算法框架。我們認為，MindSpore 的出現，代表著下一代 AI 基礎設施一整套全新思路正式走上舞臺。

二、下一代 AI 基礎軟體核心能力

下面以華為兩個主要的 AI 開源專案為例，給大家講一下，我們所認為的下一代 AI 基礎軟體能力代表的關鍵能力是什麼。

MindSpore 希望解決的問題

MindSpore 希望解決的問題很簡單，剛才很多嘉賓演講已經從不同維度都觸及過這個問題。顯而易見，現在可以開發以及需要訓練的模型越來越大，所處理的資料越來越大。如果你的框架不夠友好的話，AI 演算法工程師需要學越來越多的系統知識，才能搞定大規模分散式系統。另外就是企業方面；有些情況，單純在學術界做研究還可以，到了真正的產業界就變得不可行；產業界所關心的並不是很新很酷的特性，關心的是魯棒性、穩定性、安全性等一系列東西。最近人工智慧業界的巨大發展是 ASIC 晶片的大量出現，這裡存在的問題是一個框架能不能充分發揮專用晶片的能力。再就是學術界和產業界的鴻溝，不再贅述了。開發 MindSpore 正是為了尋找和研究全新的框架，從而解決這些問題。

什麼是 MindSpore

那麼，什麼是 MindSpore？簡而言之，MindSpore 稱之為全場景 AI 計算框架。全場景的意思是從「大規模公有云端環境」一直到「智慧邊緣」的智慧相機、邊緣盒子、手機，甚至是嵌入式開發板，都可以用這一套框架來開發。

MindSpore 有些關鍵特性：（1）自動並行。有關並行的文獻可謂汗牛充棟，從可以進行分散式訓練模型那一天開始，「並行」就是大家關注的問題；從最基礎的資料並行，到可以做模型並行、再到 Pipeline 並行。MindSpore 是混合自動並行，意思是可以自動進行「最優的分散式並行策略」搜尋，可以給開發者提供最優的並行策略。（2）二階最佳化。做二階求導是理論上非常符合直覺，但是工程實踐上非常難的事情。尤其是你可以持續保持你做一階的正增益，效率提高將近 1 倍。MindSpore 是可以做到的（3）動靜態圖結合。（4）全場景部署協同。MindSpore 和華為昇騰硬體平臺配合，可以發揮巨大的效能，我們也會提供很多效能除錯工具。

有幾個最新的比較不錯的特性：MindSpore 著力點是和科學計算的結合。我們一直認為深度學習和科學計算結合，或者說把數值計算與深度學習結合，是整個領域向前發展的一大趨勢。

MindSpore 以及昇騰生態在很多地方都有了很多實踐，比如說深圳氣象局有短臨天氣預報、電路巡檢，以及來自雲南的非物質文化遺產「扎染」與 AI 結合的嘗試。

MindSpore 會和鵬城實驗室做大量千行百業智慧化的研究合作。在武漢建立了 AI 計算中心，孵化了大量的 AI 相關應用創新。今年最重要的成果是，我們與鵬城實驗室釋出了業界首個千億引數量級的稠密中文自然語義模型——「鵬程。盤古」。

盤古模型釋出以後，有很多新聞出來了，稱有許多其他框架做的所謂萬億級模型。在這裡，大家需要區分稠密模型和稀疏模型。很多推薦類模型，包括為了解決硬體算力不足採用 MOE 模式的大型稀疏模型的訓練成本和訓練過程，跟稠密模型 GPT3、盤古這樣的千億引數的模型是完全不一樣的。我們堅持了盤古大模型開放開源，給整個業界使用。

我們和深圳灣實驗室的老師一直在合作分子動力學與深度學習結合的相關探索。MindSpore 帶來的很多端到端自動並行的能力都對類似的科研任務有極大的推動。

整個 MindSpore 開源社群是在 2020 年 3 月 28 日開源的，可以看到短短一年多的時間取得了比較快速的發展。

除了深度學習框架之外，想跟大家介紹非常重要的 AI 異構計算架構——CANN。

CANN 是我們定義的能夠支援異構計算，尤其是進行大量面向底層硬體編譯最佳化的軟體系統。CANN 主要是提供統一的程式語言——ACL，有統一網路構圖介面，以及高效能計算引擎和運算元庫。加速硬體的運算元效能是非常重要的。CANN 還有很多基礎服務，比如集合通訊能力等。

三、下一代 AI 基礎軟體能力主要方向

下面快速說一下基礎軟體 + 底軟的層面，未來深度學習發展的幾個走向：

（1）互操作性。互操作性未來會是巨大的話題，現在互操作性並不是問題，因為每一個框架都有背後的主要公司在維護，且每個框架都擁有可以支撐的主要生態。但是隨著人工智慧生態的發展，比如說 Huggingface，存在非常有趣的現象。隨著預訓練模型、跨模態預訓練模型的大量豐富，透過業界標準解決互操作問題只是時間問題。

（2）高階 API。高階 API 並不是新事物。最近可以看到 FastAI 的快速成長，Keras 又從 TensorFlow 的生態圈裡獨立出來。TinyMS 是我們團隊為 MindSpore 開發的高階 API 專案。「能否有好用的高階 API」是未來深度學習框架開發者生態發展非常重要的一環。

（3）SciML 是 Julia 社群提出的概念。科學計算與深度學習結合，數值計算與深度學習的結合，將來會極大地影響框架的發展。Google 大腦最近一直在推的 JAX，以及 JAX 相關的生態。我們有 Julia 這樣非常優秀的傳統做科學計算的開源專案，現在也在做大量深度學習的結合。

（4）編譯最佳化。這是國內大學團隊的一篇論文，本質上大家用框架的前端構造網路模型；框架的後端會跟很多底軟層透過編譯最佳化，讓模型比較有效地利用其所有硬體環境；從而執行你需要它執行的任務。編譯最佳化一直以來是一個大難題，今天上午也有講到 RISC-V，尤其是當域專有的架構越來越多的時候，如何做端到端的最佳化；最佳化不僅僅是框架層面軟體的最佳化。比如說以 RISC-V 為例。RISC-V 的 Vector 擴充套件，「如何設計擴充套件能夠更好地最佳化，所有涉及到向量計算相關編譯的流程」，都將是非常重大的課程。比如說，現在有 MIIR 開源社群著手解決其中一部分問題，所謂的編譯基礎設施，這塊是未來的一大發展方向。

當然還有很多其他的方向，前面提到的圖神經網路有框架的概念，強化學習也有框架的概念。聯邦學習、隱私計算最近非常火，我們也有很多專門做這方面的框架。剛剛也提到很多交叉領域，包括段老師提到的量子力學，MindSpore 也有自己對量子力學的 Mind quantum 相關的支援。

結束語

我講的內容就為大家呈現到這裡，歡迎大家關注我們的社群。這是一個新生的「立足國內，放眼全球」的深度學習開源社群。歡迎大家關注我們，我們的程式碼在國內的碼雲以及大家最常用的 Github 上都有，並且是實時同步的。在抖音、B 站上都有站點，我們投放了很多課程、活動的錄屏。

歡迎大家關注我們！謝謝大家！

THE END

轉載請聯絡本公眾號獲得授權