AI，能有多快

人工智慧

（

）早已滲透到我們生活的各個角落。

它不僅是圍棋、電子遊戲等競技中戰無不勝的最強對手，還正幫助各個領域的科學家解決難題，不僅如此，我們通訊軟體里語音轉文字、一鍵翻譯功能，或者購物網站的智慧推薦……它們的背後可能都“躲著”AI。

無論是哪種AI，都離不開

強大的計算系統

的支援。就好像過去的工業革命首先要有精密測量、原材料和製造方面的重大突破來支援一樣，AI也需要全新的技術來推動。

在這樣一個“AI時代”，來自全球數十家AI領軍機構的計算系統“同臺競技”又是一種怎樣的體驗？

這樣的“奧林匹克”真的存在。著名的機器學習開放聯盟MLCommons每年都會組織名為

MLPerf

的基準測試，它們能夠在AI計算系統的速度和效率等方面給出統一的測量標準，並讓研究人員透過比較各種技術創新，推動最佳創意和解決方案的進步。

今年4月，MLPerf剛剛公佈了

2022年第一輪推理效能測試

（MLPerf Inference V2。0）的結果，讓我們對目前頂尖計算系統的效能有了新的認識。

AI的訓練與推理

MLPerf測試每年有4次，其中包括

訓練

效能測試和

推理

效能測試。為了更好地理解這個語境下的“訓練”和“推理”，我們可以先簡單說一說AI的工作原理，它們為什麼如此與眾不同，如此富有魅力。

AI學者

賈內爾·沙內

（Janelle Shane）在《你看起來好像……我愛你：AI的工作原理以及它為這個世界帶來的稀奇古怪》一書中舉了一個生動的例子：如何訓練AI講笑話。

如果採用傳統程式設計讓計算機講一則笑話，我們就必須把笑話中所有“規則”用程式語言告訴它。

無論程式最終變得多麼複雜，本質上仍然是我們為計算機設定好了規則，它去具體地解決這個問題

。

但訓練AI截然不同，許多AI專家都認同，

和傳統程式設計相比，編寫AI程式更像“教學生”

。

用沙內的話說，簡單來講（當然現實情況顯然不會這麼簡單），我們只要丟給AI一些已有的笑話，用一些基本指令告訴它目標是寫笑話，再加上一大堆隨機的字元。“然後，我就去取我的咖啡了。”而AI便開始了工作。

它可能會從瞎猜開始，

一次又一次地研究資料集並自我調整，自行摸索出更多規則

。當然，某些規則也可能不小心讓它們誤入歧途，比如，曾有一個斯坦福大學的研究團隊嘗試訓練AI來區分健康面板和面板癌的圖片，結果最終卻一不小心訓練出了一個尺子測量工具，因為資料集中許多腫瘤照片上都有一把用來標度大小的尺子。

但更多時候，在得當的訓練下，

AI能發現程式設計師甚至任何人都不知道的大量規則

，建立起屬於自己的“知識體系”。

完成了訓練的AI就像掌握了考點的學霸，

它們還有能力將這些所學應用到具體的場景中，根據前所未見的新資料，迅速地給出答案

，也就是所謂

推理

的能力。

這就是AI成為最具吸引力的解決方案的關鍵所在，它具有無窮的潛力和創造力。

然而，整個過程都離不開

海量的資料和計算

，一切需要在儘可能短的時間內完成。這就對計算系統的效能有了很大的要求。

MLPerf測試就是從訓練和推理這兩個方面入手，對計算效能展開全面的考察。

MLPerf測什麼？

在MLPerf測試中，訓練效能測試相對簡單。它主要分為單機和叢集兩種場景，考察計算系統完成主流AI模型訓練的時間，完成得越快，自然意味著系統性能越強。

但此次公佈的推理效能測試則更加全面，設定上也更復雜，它就像體育比賽中的全能比賽或者鐵人三項，更準確地說是“鐵人33項”。

推理效能

測試針對不同場景，設定了各種指標，考察計算系統完成各類AI任務的速度和能力

。它也因此成為行業中的權威標杆之一。

推理效能測試可以首先分為

固定任務

和

開放最佳化

兩大類。其中，固定任務更強調

同類比較

，像是讓不同的計算系統在同一起跑線上“賽跑”，因此也相對更受重視。

推理效能測試分為固定任務和開放最佳化兩個型別。（圖／原理）

在固定任務中，為了保證全面性，

6大應用場景

被囊括其中，每個場景都選取了目前最主流的AI模型作為測試任務。

推理效能測試的6大應用場景。（圖／原理）

這些場景都非常貼近實際應用，和我們的生活息息相關

。舉一些最簡單的例子，比如在計算機視覺中，

影象分類

是最基本的問題之一。無論是我們在網上檢索圖片，還是手機相簿幫助我們自動歸類照片，或者對影片的智慧分析時，計算機的基本任務之一就是根據影象中的資訊將不同圖片區分開來。

而對計算機和人類的互動而言，語言模型是根本。能夠理解人類語言的

NLP

（

自然語言處理

）可以應用在翻譯、問答、文字生成等各個方面，各類智慧助手都離不開它。

除此之外，應用場景中還囊括了一些更專業的方向，比如

生物醫學影象分割

。我們在醫院拍攝的CT、MRI這些醫學影像和普通的照片不太一樣，它們很多時候是“塊狀”的，也就是說，一整張圖由很多個切片構成，這也給影象處理帶來了額外的挑戰。生物醫學影象分割就是對這些醫學影像中器官或病變進行分割，從而更精準地識別和分析，這也是計算機輔助醫療中的關鍵一步。

針對這些應用場景，測試設定了不同考察維度。可以這麼理解，這其實就是

進一步將應用場景細化，創造出更豐富的貼合實際的情境，從而

全方位地檢驗計算系統在各種可能發生的情況下的表現

。

針對不同模型，測試還設定了不同考察維度，包括資料中心和邊緣中的不同場景。（圖／原理）

新的紀錄，新的未來

這次MLPerf推理效能測試共有19家機構參與，總計超過千項資料被提交。

其中，

浪潮AI伺服器

在總共33項任務中，斬獲了27項冠軍，其中包括資料中心全部16項冠軍，以及邊緣17個單項中的11項冠軍，在各項任務中創下了新的AI推理速度紀錄。

浪潮AI伺服器在本次MLPerf推理效能測試（資料中心離線場景）中創造的各項紀錄。（圖／原理）

這代表著當前最先進的AI計算水平。隨著AI應用在各個行業中的持續深化，更快的推理速度將帶來更高的AI應用效率和能力，加速產業智慧化轉型。

相比前一次的測試結果，浪潮AI伺服器將影象分類、語音識別和自然語言處理任務的推理效能分別提升了

31.5%

、

28.5%

和

21.3%

，換句話說，系統在自動駕駛、語音會議、智慧問答和智慧醫療等各類場景中，都有能力更高效、快速地完成各項智慧任務。

在強大算力的驅動下，數字技術會在實體世界得到更深度的應用。將來，我們或許都有機會駕駛著高度自動化的汽車，在智慧交通系統的幫助下，用最快捷、最安全的方式到達想去的地方。只要對著智慧助手說兩句話，我們下單的用品就能在最短時間內即刻送達。有了語音實時識別和翻譯，語言的壁壘也逐漸消融，我們有了更多溝通交流的機會，認識更廣闊的的世界。

正如浪潮資訊所言，智慧時代，

計算力就是生產力，

智

算力就是創新力

。它將成為推動新一輪科技革命和產業變革的重要力量。

創作團隊：

撰文：Takeko

排版／設計：雯雯

參考來源：

https：//mlcommons。org/en/

https：//mlcommons。org/en/news/mlperf-inference-1q2022/

［美］賈內爾·沙內，《你看起來好像……我愛你：AI的工作原理以及它為這個世界帶來的稀奇古怪》，中信出版·鸚鵡螺，2021年4月

測試結果相關資料由浪潮資訊提供。

圖片來源：

封面圖：原理

首圖：Mike MacKenzie， Flickr， CC BY

*本次推送由浪潮資訊贊助。