機器之心轉載
作者:Hertz
北京時間 2022 年 7 月 8 日晚上 22:30,鄂維南院士在 2022 年的國際數學家大會上作一小時大會報告 (plenary talk)。今天我們帶來鄂老師演講內容的分享。鄂老師首先分享了他對機器學習數學本質的理解(函式逼近、機率分佈的逼近與取樣、Bellman 方程的求解);然後介紹了機器學習模型的逼近誤差、泛化性質以及訓練等方面的數學理論;最後介紹如何利用機器學習來求解困難的科學計算和科學問題,即 AI for science。
機器學習問題的數學本質
眾所周知,機器學習的發展,已經徹底改變了人們對人工智慧的認識。機器學習有很多令人歎為觀止的成就,例如:
·
比人類更準確地識別圖片
:利用一組有標記的圖片,機器學習演算法可以準確地識別圖片的類別:
Cifar-10 問題:把圖片分成十個類別
·
Alphago下圍棋
打敗人類
:完全由機器學習實現下圍棋的演算法:
參考:https://www。bbc。com/news/technology-35761246
·
產生人臉圖片,達到
以假亂真
的效果:
參考:https://arxiv。org/pdf/1710。10196v3。pdf
機器學習還有很多其他的應用。在日常生活中,人們甚至常常使用了機器學習所提供的服務而不自知,例如:我們的郵件系統裡的垃圾郵件過濾、我們的車和手機裡的語音識別、我們手機裡的指紋解鎖……
所有這些了不起的成就,
本質上
,卻是成功
求解了一些經典的數學問題。
對於影象分類問題,我們感興趣的其實是函式
:
: 影象類別
函式
把影象對映到該影象所屬的類別。我們知道
在訓練集上的取值,想由此找到對函式
的一個足夠好的
逼近
。
一般而言,
監督學習
(supervised learning)問題,
本質都是想基於一個有限的訓練集S
,給出目標函式的一個高效
逼近
。
對於人臉生成問題,其本質是
逼近並採樣一個未知的機率分佈
。在這一問題中,“人臉”是隨機變數,而我們不知道它的機率分佈。然而,我們有“人臉”的樣本:數量巨大的人臉照片。我們便利用這些樣本,近似得到“人臉”的機率分佈,並由此產生新的樣本(即生成人臉)。
一般而言,無監督學習本質就是
利用有限樣本
,
逼近並採樣問題背後未知的機率分佈
。
對於下圍棋的Alphago來說,如果給定了對手的策略,
圍棋的動力學是一個動態規劃問題的解
。其最優策略滿足
Bellman方程
。因而Alphago的本質便是求解Bellman方程。
一般而言,
強化學習
本質上就是求解
馬爾可夫過程的最優策略
。
然而,這些問題都是
計算數學
領域的經典問題!!畢竟,函式逼近、機率分佈的逼近與取樣,以及微分方程和差分方程的數值求解,都是計算數學領域極其經典的問題。那麼,這些問題在機器學習的語境下,到底和在經典的計算數學裡有什麼區別呢?答案便是:
維度(dimensionality)
例如,在影象識別問題中,輸入的維度為
。而對於經典的數值逼近方法,對於
維問題,含
個引數的模型的逼近誤差
。 換言之,如果想將誤差縮小10倍,引數個數需要增加
。 當維數
增加時,計算代價呈指數級增長。這種現象通常被稱為:
維度災難(curse of dimensionality)
所有的經典演算法,例如多項式逼近、小波逼近,都飽受維度災難之害。很明顯,機器學習的成功告訴我們,在高維問題中,
深度神經網路
的表現比經典演算法好很多。然而,這種“成功”是怎麼做到的呢?為什麼在高維問題中,其他方法都不行,但
深度神經網路
取得了前所未有的成功呢?
從數學出發,理解機器學習的“黑魔法”:監督學習的數學理論
2.1 記號與設定
神經網路是一類特殊的函式。比如,兩層神經網路是:
其中有兩組引數,
和
。
是啟用函式,可以是:
·
·
而神經網路的基本組成部分即為:線性變換與一維非線性變換。深度神經網路,一般就是如下結構的複合:
為了簡便,我們在此省略掉所有的bias項
。
是權重矩陣,啟用函式
作用在每一個分量上。
我們將要在訓練集S上逼近目標函式
不妨假設
的定義域為
。令
為
的分佈。那麼我們的目標便是:最小化測試誤差
(testing error,也稱為population risk或generalization error):
2.2 監督學習的誤差
監督學習一般有如下的步驟:
第一步:選取一個假設空間(測試函式的一個集合)
(m正比於測試空間的維數);
第二步:選取一個損失函式進行最佳化。通常,我們會選擇經驗誤差(empirical risk)來擬合數據:
有時,我們還會加上其他的懲罰項。
第三步:求解最佳化問題,如:
· 梯度下降:
· 隨機梯度下降:
是從1,…n中隨機選取的。
如果把機器學習輸出的結果記
,那麼總誤差便是
。我們再定義:
是在假設空間裡最好的逼近;
是在假設空間裡,基於資料集S最好的逼近。
由此,我們便可以把誤差分解成三部分:
是逼近誤差(approximation error):完全由假設空間的選取所決定;
是估計誤差(estimation error):由於資料集大小有限而帶來的額外的誤差;
是最佳化誤差(optimization error):由訓練(最佳化)帶來的額外的誤差。
2.3 逼近誤差
我們下面集中討論逼近誤差(approximation error)。
我們先用傳統方法傅立葉變換做一個對比:
如果我們用離散的傅立葉變換來逼近:
其誤差
便是正比於
,毫無疑問地受到維度災難的影響。
而如果一個函式可以表示成期望的形式:
令
是測度
的獨立同分布樣本,我們有:
那麼此時的誤差是:
可以看到,這是與維數無關的!
如果讓啟用函式為
,那麼
就是以
為啟用函式的兩層神經網路。此結果意味著:這一類(可以表示成期望)的函式,都可以由兩層神經網路逼近,且
逼
近誤差的速率與維數無關
!
對於一般的雙層神經網路,我們可以得到一系列類似的逼近結果。其中關鍵的問題是:到底什麼樣的函式可以被雙層神經網路逼近?為此,我們引入Barron空間的定義:
Barron空間的定義
參考:E, Chao Ma, Lei Wu (2019)
對於任意的Barron函式,存在一個兩層神經網路
,其逼近誤差滿足:
可以看到這一逼近誤差與維數無關!(關於這部分理論的細節,可以參考:E, Ma and Wu (2018, 2019), E and Wojtowytsch (2020)。其他的關於Barron space的分類理論,可以參考Kurkova (2001), Bach (2017),
Siegel and Xu (2021))
類似的理論可以推廣到殘差神經網路(residual neural network)。在殘差神經網路中,我們可以用流-誘導函式空間(flow-induced function space)替代Barron空間。
2.4
泛化性:訓練誤差與測試誤差的差別
人們一般會期待,訓練誤差與測試誤差的差別會正比於
(n是樣本數量)。然而,我們訓練好的機器學習模型和訓練資料是強相關的,這導致這樣子的Monte-Carlo速率不一定成立。為此,我們給出瞭如下的泛化性理論:
簡言之,我們用Rademacher複雜度來刻畫一個空間在資料集上擬合隨機噪聲的能力。Rademacher複雜度的定義為:
其中
是取值為1或-1的獨立同分布的隨機變數。
當
是李樸西斯空間中的單位球時,其Rademacher複雜度正比於
。
當d增加時,可以看到擬合需要的樣本大小指數上升。這其實是另一種形式的維度災難。
2.5
訓練過程的數學理解
關於神經網路的訓練,有兩個基本的問題:
梯度下降方法到底能不能快速收斂?
訓練得到的結果,是否有比較好的泛化性?
對於第一個問題,答案恐怕是悲觀的。Shamir(2018)中的引理告訴我們,基於梯度的訓練方法,其收斂速率也受維度災難的影響。而前文提到的Barron space,雖然是建立逼近理論的好手段,但對於理解神經網路的訓練卻是一個過大的空間。
特別地,這樣子的負面結果可以在高度超引數(highly over-parameterized regime)的情形(即m>>n)下得到具體刻畫。在此情形下,引數的動力學出現了
尺度分離
的現象:對於如下的兩層神經網路:
在訓練過程中,
的動力學分別為:
由此可以看到尺度分離的現象:當m很大的時候,
的動力學幾乎被凍結住。
這種情形下,好訊息是我們有了指數收斂(Du et al, 2018);壞訊息卻是這時候,神經網路表現得並不比從random feature model模型好。
我們也可以從平均場的角度理解梯度下降方法。令:
,並令:
則
是下列梯度下降問題的解:
當且僅當
是下面方程的解(參考:Chizat and Bach (2018), Mei, Montanari and Nguyen (2018), Rotsko and Vanden-Eijnden (2018), Sirignano and Spiliopoulos (2018)):
這一平均場動力學,實際上是在Wassenstein度量意義下的梯度動力學。人們證明了:如果其初始值
的支集為全空間,且梯度下降的確收斂,那麼其收斂結果必然是全域性最優(參考:Chizat and Bach (2018,2020), Wojtowytsch (2020))。
機器學習的應用
3.1
解決高維科學計算問題
既然機器學習是處理高維問題的有效工具,我們便可運用機器學習解決傳統計算數學方法難以處理的問題。
第一個例子便是
隨機控制問題
。傳統方法求解隨機控制問題需要求解一個極其高維的Bellman方程。運用機器學習方法,可以有效求解隨機控制問題。其思路與殘差神經網路頗為類似(參考Jiequn Han and E (2016)):
第二個例子便是
求解非線性拋物方程
。非線性拋物方程可以被改寫成一個隨機控制問題,其極小點是唯一的,對應著非線性拋物方程的解。
3.2
AI for science
利用機器學習處理高維問題的能力,我們可以解決更多科學上的難題。這裡我們舉兩個例子。第一個例子是Alphafold。
參考:J。 Jumper et al。 (2021)
第二個例子,便是我們自己的工作:
深度勢能分子動力學(DeePMD)
。這是能達到
從頭計算精度的分子動力學
。我們所使用的新的模擬“正規化”便是:
利用量子力學第一性原理計算提供
資料
;
利用神經網路,給出勢能面準確的
擬合
(參考:Behler and Parrinello (2007), Jiequn Han et al (2017), Linfeng Zhang et al (2018))。
運用DeePMD,我們能夠模擬一系列材料和分子,可以達到
第一性層面的計算精度
:
我們還實現了
一億原子的第一性原理精度的模擬
,獲得了
2020年的戈登貝爾獎
:
參考:Weile Jia, et al, SC20, 2020 ACM Gordon Bell Prize
我們給出了
水的相圖
:
參考:Linfeng Zhang, Han Wang, et al。 (2021)
而事實上,物理建模橫跨多個尺度:宏觀、介觀、微觀,而
機器學習恰好提供了跨尺度建模的工具
。
AI for science
,即用機器學習解決科學問題,已經有了一系列重要的突破,如:
量子多體問題:RBM (2017), DeePWF (2018), FermiNet (2019),PauliNet (2019),…;
密度泛函理論: DeePKS (2020), NeuralXC (2020), DM21 (2021), …;
分子動力學: DeePMD (2018), DeePCG (2019), …;
動理學方程: 機器學習矩封閉 (Han et al。 2019);
連續介質動力學:
(2020)
在未來五到十年,我們有可能做到:
跨越所有物理尺度進行建模和計算
。這將徹底改變我們如何解決現實問題:如藥物設計、材料、燃燒發動機、催化……
總結
機器學習根本上是高維中的數學問題。神經網路是高維函式逼近的有效手段;這便為人工智慧領域、科學以及技術領域提供了眾多新的可能性。
這也開創了數學領域的一個新主題:
高維的分析學
。簡而言之,可以總結如下:
監督學習:高維函數理論;
無監督學習:高維機率分佈理論;
強化學習:高維Bellman方程;
時間序列學習:高維動力系統。
關於AISI
北京科學智慧研究院(AI for Science Institute, 以下簡稱AISI)成立於2021年9月,由鄂維南院士領銜,致力於將人工智慧技術與科學研究相結合,加速不同科學領域的發展和突破,推動科學研究正規化的革新,建設引領世界的「AI for Science」基礎設施體系。
AISI的研究人員來自國內外頂尖高校、科研機構和科技企業,共同聚焦物理建模、數值演算法、人工智慧、高效能計算等交叉領域的核心問題。
AISI致力於創造思想碰撞的學術環境,鼓勵自由探索和跨界合作,共同探索人工智慧與科學研究結合的新可能。
THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin。com