遷移學習的魔法：任何人都將能使用深度學習

全文共2282字，預計學習時長8分鐘

圖源：unsplash

一年前，我和幾個小夥伴一起開始在構建機器學習API的開源平臺Cortex上工作。起初，我們假設所有使用者，包括所有把機器學習（ML）運用於生產的公司，都是擁有成熟資料科學團隊的大公司。

但我們大錯特錯了。

一年中，我們看見學生、獨立工程師以及小型團隊紛紛把模型投入生產。出乎意料，他們提供的通常都是最先進的大型深度學習模型，可用於日常應用程式。一個兩人組成的團隊最近建立了一個500個GPU推理叢集，以支援其應用程式的1萬個併發使用者。

僅僅在不久之前，只有預算高、資料量大的公司才能做到這樣的事情。現在，任何團隊都可以做到。這種轉變是多種因素共同作用的結果，但其中一個重要因素是遷移學習。

什麼是遷移學習

廣義上講，遷移學習是指將經過一項任務訓練的深度神經網路的知識“遷移”到訓練相關任務的另一個網路的技術。例如，可以使用遷移學習來獲取用於物件檢測模型，然後使用少量資料對其進行“微調”來檢測更具體的事物。

這些技術之所以能起作用是因為深度神經網路的體系結構。網路的低層負責更多的基礎知識，而特定任務知識則通常在頂層：

圖源：Stanford

較低層訓練完後，可以用少量資料微調較高的層。例如，物件檢測模型（比如說YOLOv4）進行微調後可以識別具有很小資料集的特定事物（例如車牌）。

在網路之間遷移知識的技術各不相同，但不約而同的是，最近有許多新專案旨在簡化這個過程。例如，gpt-2-simple庫允許任何人微調GPT-2，還可以使用Python函式生成預測：https：//gist。github。com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

遷移學習是如何打通機器學習的

大部分團隊不會因為缺乏某類知識而無法使用機器學習。如果要構建影象分類器，有許多知名的模型可以使用，使用現代化框架會讓訓練變得非常簡單。對於大多數團隊來說，機器學習因其成本因素所以從未被視為一個現實的選擇。

讓我們用OpenAI的（到目前為止）最佳語言模型GPT-2為例來說明。

如果使用公有云，單就估算GPT-2訓練成本就已超過4萬美元，除了這一費用，GPT-2還需要訓練40GB的文字內容（保守估計超過2000萬頁），抓取和整理大量文字本身就是一個巨大的專案。這讓大多數團隊無法訓練自己的GPT-2。

但如果只是對其進行微調呢？來看一個相關專案。

AI Dungeon是一款可自行選擇的冒險遊戲，其風格延續之前的命令遊戲地牢爬行者。玩家透過輸入指令進行遊戲，遊戲透過推進冒險作為迴應。這款冒險遊戲是由訓練後的GPT-2模型編寫的，你可以編寫自己選擇的冒險文字：

AI Dungeon是由獨立工程師尼克·沃頓開發的，他利用gpt-2-simple和從chooseyourstory。com網站上提取的文字微調GPT。沃爾頓表示微調GPT-2需要30MB的文字和12小時左右的時間來訓練DGX-1——大約花費了374。62美元，但做出來的產品效果和AWS的p3dn。24xlarge差不多。

也許大部分團隊只能對著4萬美元的雲服務費和40GB的文字提取量望洋興嘆，但是375美元和30MB即便對小團隊來說也不成問題。

遷移學習的應用領域超越了語言模型。在藥物發現中，通常沒有足夠的特定疾病資料來從零開始訓練模型。DeepScreening是一個解決此類問題的免費平臺，它允許使用者上傳自己的資料庫和微調模型，然後利用該平臺來篩選可能會發生反應的化合物庫。

圖源：unsplash

從零開始訓練一個這樣的模型超出大多數研究人員的能力範圍，但是由於有了遷移學習，突然間人人都可以做到。

新一代深度學習模型取決於遷移學習

必須強調的一點是，儘管筆者目前給出的例子都偏重經濟效益，但遷移學習並不是小型團隊用來湊數的一個工具，所有團隊無論大小都在使用遷移學習來訓練深度學習模型。事實上，一些新發布的模型都是專門針對遷移學習的。

還記得GPT-2首次釋出時，因其原始記憶體而霸佔各大頭版頭條，我們以前從未聽說過有15億引數的模型。然而和GPT-3相比則是小巫見大巫了，後者引數量達到1750億。

除了OpenAI之外，幾乎沒有哪家公司能訓練擁有1750億個引數的語言模型。即便是部署這麼大的模型也存在諸多問題。OpenAI打破了他們釋出開源的傳統，預訓練新模型版本，將GPT-3作為API發行—使用者可以使用自己的資料微調GPT-3。

換句話說，GPT-3的龐大讓遷移學習不再是訓練新任務的一個經濟實惠的方法，而是唯一可行的方法。

遷移學習優先方法已經變得越來越普遍。Google剛剛釋出的Big Transfer是一個先進計算機視覺模型開源儲存庫。儘管計算機視覺模型通常要比語言模型小，但它們已經開始追趕了——預訓練過的ResNet-152x4接受了1400萬張影象的訓練，容量為4。1 GB。

顧名思義，Big Transfer旨在鼓勵利用這些模型來使用轉移學習。作為儲存庫的一部分，Google還提供了可以輕鬆微調每個模型的程式碼。正如下圖所示，模型容量會隨著時間不斷增大（GPT-3會將圖表的大小增加10倍）：

圖源：Microsoft

如果這種趨勢持續下去（沒有跡象表明這種趨勢不會持續），那麼遷移學習將成為團隊使用前沿深度學習的主要方式。

隨著模型變得越來越大，遷移學習使得每個團隊都能使用這些模型，投入生產的大型深度學習模型的數量猛增。訓練這些模型是一個挑戰——它們需要大量空間和記憶體來進行推理，而且通常無法一次處理多個請求。

圖源：unsplash

因為這些模型（GPU / ASIC推斷，基於請求的彈性伸縮，spot例項支援），我們已經給Cortex引入了幾個主要功能，並且隨著模型的擴大，我們將不斷新增新的功能。

然而，與讓世界上每個工程師都可以使用最先進的深度學習解決問題的潛力相比，基礎架構挑戰性的難度微不足道。人人可使用的深度學習，已經觸手可及。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

股民福利來了！送您十大金股！點選檢視>>