零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

多模態模型常見,但是基於稀疏化的還是頭一個。

谷歌帶來最新成果

LIMoE

,首次將稀疏化方法用在了影象文字混合模型上。

要知道,隨著大模型引數呈指數級增加,訓練成本也是一路飆升。

所以如何降低訓練成本,成為了目前學界重點關注的一個問題。

谷歌想到的辦法,不是拼硬體,而是從模型本身入手。

利用稀疏化的方法,讓每次輸入只需啟用部分網路就能完成任務。

它們在模型內部設定了很多“

專家

”,每個“專家”只需處理對應部分的輸入,根據任務情況按需使用“專家”就好。

這樣一來,儘管模型容量很大,但是計算成本並

沒有暴增

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

而且還不會降低效能。

新方法LIMoE零樣本學習任務中,可是直接超越了CLIP。

怪不得網友高呼:

快分享給我們API!

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

讓不同“專家”處理不同任務

對於深度學習來說,能同時處理文字影象任務其實已經不稀奇。

不過過去常見的多模態學習方法,往往是單個輸入就需要啟用整個網路。

谷歌這次提出的新方法,最大亮點就是首次在這一領域採用了

稀疏化模型

稀疏化的方法便是無需讓整個模型來處理所有的輸入。

透過對神經網路進行劃分,它讓神經網路也“專業對口”,不同的子模型只處理固定型別的任務或資料。

但也不是完全割裂開來,模型內部仍有可共享的部分。

此次基於的模型是

MoE

(Mixture-of-Experts layer),它被稱為專家混合模型。

也就是在Transformer架構的基礎上,加設了“專家層”。

它是一個並行的FNN,取代了原本的前饋網路。

這裡的“專家”,也就是模型內部的不同子模型。

每個子模型專門用於不同的輸入。

每一層中的專家由門控網路控制,該網路根據輸入資料啟用專家。

對於每個標記,門控網路選擇最合適的專家來處理資料。

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

此次新提出的LIMoE,其實就是讓MoE能

同時處理影象文字

具體來看,就是讓LIMoE進行對比學習。

在利用大量影象-文字對訓練時,網路內部的影象模型提取影象表示,文字模型提取文字表示。

針對相同的影象-文字對,模型會拉近影象和文字表示的距離。

反之,對於不同的影象-文字對,則會讓相應的表示彼此遠離。

這樣一來的直接好處,就是能實現

零樣本學習

比如一張影象的表示更接近文字“狗”的表示,那麼它就會被歸類為狗。

這種思路可以擴充套件到數千種情況。

實際上,CLIP和ALIGAN採用的都是這個思路,它們在ImageNet資料集上的精度分別是76。2%、76。4%。

而LIMoE-L/16可以達到

78.6%

,已經超過了CLIP。

未經過預訓練的LIMoE H/14則能達到84。1%的精度。

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

而在LIMoE的專家層中,谷歌表示還發現了一些有趣的現象。

比如在訓練設定中,影象標記比文字標記要多很多,因此所有專家都會在在任務中多少處理些影象。

只不過有的會主要處理影象,有的主要處理文字,或者二者兼具。

還有在大多數情況下,都會有一個專家來處理所有包含文字表示的影象patch。

零樣本學習超越CLIP!谷歌提出首個多模態稀疏化模型LIMoE

除了效能上的提升,使用稀疏化模型的好處還體現在

降低計算成本

上。

因為“多專家”的模式意味著,儘管多設了很多子模型,模型容量顯著增加,但是實際計算成本並沒有明顯變化。

如果一次任務中只使用了一個子模型,那它的成本和標準Transformer的差不多。

比如LIMoE-H/14總共有5。6B引數,但是透過稀疏化,它只會使用每個token的675M引數。

One More Thing

稀疏化模型一直是谷歌深度研究的一個方向,已經提出了MoE、GLaM在內的多個模型。

這次LIMoE也不是谷歌第一次魔改MoE。

去年6月,他們提出了V-MoE,是一種新型的視覺架構,今年已將全部程式碼開源。

參考連結:https://ai。googleblog。com/2022/06/limoe-learning-multiple-modalities-with。html