鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

機器之心轉載

作者:Hertz

北京時間 2022 年 7 月 8 日晚上 22:30,鄂維南院士在 2022 年的國際數學家大會上作一小時大會報告 (plenary talk)。今天我們帶來鄂老師演講內容的分享。鄂老師首先分享了他對機器學習數學本質的理解(函式逼近、機率分佈的逼近與取樣、Bellman 方程的求解);然後介紹了機器學習模型的逼近誤差、泛化性質以及訓練等方面的數學理論;最後介紹如何利用機器學習來求解困難的科學計算和科學問題,即 AI for science。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

機器學習問題的數學本質

眾所周知,機器學習的發展,已經徹底改變了人們對人工智慧的認識。機器學習有很多令人歎為觀止的成就,例如:

·

比人類更準確地識別圖片

:利用一組有標記的圖片,機器學習演算法可以準確地識別圖片的類別:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

Cifar-10 問題:把圖片分成十個類別

·

Alphago下圍棋

打敗人類

:完全由機器學習實現下圍棋的演算法:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

參考:https://www。bbc。com/news/technology-35761246

·

產生人臉圖片,達到

以假亂真

的效果:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

參考:https://arxiv。org/pdf/1710。10196v3。pdf

機器學習還有很多其他的應用。在日常生活中,人們甚至常常使用了機器學習所提供的服務而不自知,例如:我們的郵件系統裡的垃圾郵件過濾、我們的車和手機裡的語音識別、我們手機裡的指紋解鎖……

所有這些了不起的成就,

本質上

,卻是成功

求解了一些經典的數學問題。

對於影象分類問題,我們感興趣的其實是函式

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

: 影象類別

函式

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

把影象對映到該影象所屬的類別。我們知道

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

在訓練集上的取值,想由此找到對函式

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的一個足夠好的

逼近

一般而言,

監督學習

(supervised learning)問題,

本質都是想基於一個有限的訓練集S

,給出目標函式的一個高效

逼近

對於人臉生成問題,其本質是

逼近並採樣一個未知的機率分佈

。在這一問題中,“人臉”是隨機變數,而我們不知道它的機率分佈。然而,我們有“人臉”的樣本:數量巨大的人臉照片。我們便利用這些樣本,近似得到“人臉”的機率分佈,並由此產生新的樣本(即生成人臉)。

一般而言,無監督學習本質就是

利用有限樣本

逼近並採樣問題背後未知的機率分佈

對於下圍棋的Alphago來說,如果給定了對手的策略,

圍棋的動力學是一個動態規劃問題的解

。其最優策略滿足

Bellman方程

。因而Alphago的本質便是求解Bellman方程。

一般而言,

強化學習

本質上就是求解

馬爾可夫過程的最優策略

然而,這些問題都是

計算數學

領域的經典問題!!畢竟,函式逼近、機率分佈的逼近與取樣,以及微分方程和差分方程的數值求解,都是計算數學領域極其經典的問題。那麼,這些問題在機器學習的語境下,到底和在經典的計算數學裡有什麼區別呢?答案便是:

維度(dimensionality)

例如,在影象識別問題中,輸入的維度為

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

。而對於經典的數值逼近方法,對於

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

維問題,含

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

個引數的模型的逼近誤差

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

。 換言之,如果想將誤差縮小10倍,引數個數需要增加

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

。 當維數

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

增加時,計算代價呈指數級增長。這種現象通常被稱為:

維度災難(curse of dimensionality)

所有的經典演算法,例如多項式逼近、小波逼近,都飽受維度災難之害。很明顯,機器學習的成功告訴我們,在高維問題中,

深度神經網路

的表現比經典演算法好很多。然而,這種“成功”是怎麼做到的呢?為什麼在高維問題中,其他方法都不行,但

深度神經網路

取得了前所未有的成功呢?

從數學出發,理解機器學習的“黑魔法”:監督學習的數學理論

2.1 記號與設定

神經網路是一類特殊的函式。比如,兩層神經網路是:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

其中有兩組引數,

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是啟用函式,可以是:

·

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

·

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

而神經網路的基本組成部分即為:線性變換與一維非線性變換。深度神經網路,一般就是如下結構的複合:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

為了簡便,我們在此省略掉所有的bias項

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是權重矩陣,啟用函式

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

作用在每一個分量上。

我們將要在訓練集S上逼近目標函式

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

不妨假設

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的定義域為

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

。令

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的分佈。那麼我們的目標便是:最小化測試誤差

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

(testing error,也稱為population risk或generalization error):

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

2.2 監督學習的誤差

監督學習一般有如下的步驟:

第一步:選取一個假設空間(測試函式的一個集合)

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

(m正比於測試空間的維數);

第二步:選取一個損失函式進行最佳化。通常,我們會選擇經驗誤差(empirical risk)來擬合數據:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

有時,我們還會加上其他的懲罰項。

第三步:求解最佳化問題,如:

· 梯度下降:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

· 隨機梯度下降:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是從1,…n中隨機選取的。

如果把機器學習輸出的結果記

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

,那麼總誤差便是

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

。我們再定義:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是在假設空間裡最好的逼近;

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是在假設空間裡,基於資料集S最好的逼近。

由此,我們便可以把誤差分解成三部分:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是逼近誤差(approximation error):完全由假設空間的選取所決定;

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是估計誤差(estimation error):由於資料集大小有限而帶來的額外的誤差;

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是最佳化誤差(optimization error):由訓練(最佳化)帶來的額外的誤差。

2.3 逼近誤差

我們下面集中討論逼近誤差(approximation error)。

我們先用傳統方法傅立葉變換做一個對比:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

如果我們用離散的傅立葉變換來逼近:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

其誤差

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

便是正比於

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

,毫無疑問地受到維度災難的影響。

而如果一個函式可以表示成期望的形式:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是測度

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的獨立同分布樣本,我們有:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

那麼此時的誤差是:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

可以看到,這是與維數無關的!

如果讓啟用函式為

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

,那麼

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

就是以

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

為啟用函式的兩層神經網路。此結果意味著:這一類(可以表示成期望)的函式,都可以由兩層神經網路逼近,且

近誤差的速率與維數無關

對於一般的雙層神經網路,我們可以得到一系列類似的逼近結果。其中關鍵的問題是:到底什麼樣的函式可以被雙層神經網路逼近?為此,我們引入Barron空間的定義:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

Barron空間的定義

參考:E, Chao Ma, Lei Wu (2019)

對於任意的Barron函式,存在一個兩層神經網路

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

,其逼近誤差滿足:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

可以看到這一逼近誤差與維數無關!(關於這部分理論的細節,可以參考:E, Ma and Wu (2018, 2019), E and Wojtowytsch (2020)。其他的關於Barron space的分類理論,可以參考Kurkova (2001), Bach (2017),

Siegel and Xu (2021))

類似的理論可以推廣到殘差神經網路(residual neural network)。在殘差神經網路中,我們可以用流-誘導函式空間(flow-induced function space)替代Barron空間。

2.4

泛化性:訓練誤差與測試誤差的差別

人們一般會期待,訓練誤差與測試誤差的差別會正比於

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

(n是樣本數量)。然而,我們訓練好的機器學習模型和訓練資料是強相關的,這導致這樣子的Monte-Carlo速率不一定成立。為此,我們給出瞭如下的泛化性理論:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

簡言之,我們用Rademacher複雜度來刻畫一個空間在資料集上擬合隨機噪聲的能力。Rademacher複雜度的定義為:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

其中

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是取值為1或-1的獨立同分布的隨機變數。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是李樸西斯空間中的單位球時,其Rademacher複雜度正比於

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

當d增加時,可以看到擬合需要的樣本大小指數上升。這其實是另一種形式的維度災難。

2.5

訓練過程的數學理解

關於神經網路的訓練,有兩個基本的問題:

梯度下降方法到底能不能快速收斂?

訓練得到的結果,是否有比較好的泛化性?

對於第一個問題,答案恐怕是悲觀的。Shamir(2018)中的引理告訴我們,基於梯度的訓練方法,其收斂速率也受維度災難的影響。而前文提到的Barron space,雖然是建立逼近理論的好手段,但對於理解神經網路的訓練卻是一個過大的空間。

特別地,這樣子的負面結果可以在高度超引數(highly over-parameterized regime)的情形(即m>>n)下得到具體刻畫。在此情形下,引數的動力學出現了

尺度分離

的現象:對於如下的兩層神經網路:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

在訓練過程中,

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的動力學分別為:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

由此可以看到尺度分離的現象:當m很大的時候,

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的動力學幾乎被凍結住。

這種情形下,好訊息是我們有了指數收斂(Du et al, 2018);壞訊息卻是這時候,神經網路表現得並不比從random feature model模型好。

我們也可以從平均場的角度理解梯度下降方法。令:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

,並令:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是下列梯度下降問題的解:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

當且僅當

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

是下面方程的解(參考:Chizat and Bach (2018), Mei, Montanari and Nguyen (2018), Rotsko and Vanden-Eijnden (2018), Sirignano and Spiliopoulos (2018)):

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

這一平均場動力學,實際上是在Wassenstein度量意義下的梯度動力學。人們證明了:如果其初始值

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

的支集為全空間,且梯度下降的確收斂,那麼其收斂結果必然是全域性最優(參考:Chizat and Bach (2018,2020), Wojtowytsch (2020))。

機器學習的應用

3.1

解決高維科學計算問題

既然機器學習是處理高維問題的有效工具,我們便可運用機器學習解決傳統計算數學方法難以處理的問題。

第一個例子便是

隨機控制問題

。傳統方法求解隨機控制問題需要求解一個極其高維的Bellman方程。運用機器學習方法,可以有效求解隨機控制問題。其思路與殘差神經網路頗為類似(參考Jiequn Han and E (2016)):

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

第二個例子便是

求解非線性拋物方程

。非線性拋物方程可以被改寫成一個隨機控制問題,其極小點是唯一的,對應著非線性拋物方程的解。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

3.2

AI for science

利用機器學習處理高維問題的能力,我們可以解決更多科學上的難題。這裡我們舉兩個例子。第一個例子是Alphafold。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

參考:J。 Jumper et al。 (2021)

第二個例子,便是我們自己的工作:

深度勢能分子動力學(DeePMD)

。這是能達到

從頭計算精度的分子動力學

。我們所使用的新的模擬“正規化”便是:

利用量子力學第一性原理計算提供

資料

利用神經網路,給出勢能面準確的

擬合

(參考:Behler and Parrinello (2007), Jiequn Han et al (2017), Linfeng Zhang et al (2018))。

運用DeePMD,我們能夠模擬一系列材料和分子,可以達到

第一性層面的計算精度

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

我們還實現了

一億原子的第一性原理精度的模擬

,獲得了

2020年的戈登貝爾獎

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

參考:Weile Jia, et al, SC20, 2020 ACM Gordon Bell Prize

我們給出了

水的相圖

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

參考:Linfeng Zhang, Han Wang, et al。 (2021)

而事實上,物理建模橫跨多個尺度:宏觀、介觀、微觀,而

機器學習恰好提供了跨尺度建模的工具

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

AI for science

,即用機器學習解決科學問題,已經有了一系列重要的突破,如:

量子多體問題:RBM (2017), DeePWF (2018), FermiNet (2019),PauliNet (2019),…;

密度泛函理論: DeePKS (2020), NeuralXC (2020), DM21 (2021), …;

分子動力學: DeePMD (2018), DeePCG (2019), …;

動理學方程: 機器學習矩封閉 (Han et al。 2019);

連續介質動力學:

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

(2020)

在未來五到十年,我們有可能做到:

跨越所有物理尺度進行建模和計算

。這將徹底改變我們如何解決現實問題:如藥物設計、材料、燃燒發動機、催化……

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

總結

機器學習根本上是高維中的數學問題。神經網路是高維函式逼近的有效手段;這便為人工智慧領域、科學以及技術領域提供了眾多新的可能性。

這也開創了數學領域的一個新主題:

高維的分析學

。簡而言之,可以總結如下:

監督學習:高維函數理論;

無監督學習:高維機率分佈理論;

強化學習:高維Bellman方程;

時間序列學習:高維動力系統。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

關於AISI

北京科學智慧研究院(AI for Science Institute, 以下簡稱AISI)成立於2021年9月,由鄂維南院士領銜,致力於將人工智慧技術與科學研究相結合,加速不同科學領域的發展和突破,推動科學研究正規化的革新,建設引領世界的「AI for Science」基礎設施體系。

AISI的研究人員來自國內外頂尖高校、科研機構和科技企業,共同聚焦物理建模、數值演算法、人工智慧、高效能計算等交叉領域的核心問題。

AISI致力於創造思想碰撞的學術環境,鼓勵自由探索和跨界合作,共同探索人工智慧與科學研究結合的新可能。

鄂維南:從數學角度,理解機器學習的“黑魔法”,並應用於更廣泛的科學問題

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin。com