AI 大模型開源之困：壟斷、圍牆與算力之殤

作者｜李梅

編輯｜陳彩嫻

2020年6月，OpenAI釋出GPT-3，其千億引數的規模和驚人的語言處理能力曾給國內AI界帶來極大的震動。但由於GPT-3未對國內開放，一批提供文字生成服務的商業公司在海外誕生時，我們只能望洋興嘆。

今年8月，倫敦的開源公司Stability AI釋出文生圖模型Stable Diffusion，並免費開源了模型的權重和程式碼，這迅速引發了AI作畫應用在全球範圍內的爆炸式增長。

可以說，今年下半年的AIGC熱潮，開源起到了直接的催化作用。

而當大模型成為所有人都能參與的遊戲時，得益的並不僅僅是AIGC。

——1——大模型開源進行時

四年前，一個名為BERT的語言模型問世，以3億的引數量從此改變了AI模型的遊戲規則。

今天，AI模型的體量已經躍升至萬億的規模，但大模型的“壟斷性”也隨之日益凸顯：

大公司、大算力、強演算法、大模型，它們共同堆砌了一道普通開發者和中小企業難以闖進的圍牆。

技術壁壘，以及訓練和使用大模型所需的計算資源和基礎設施，阻礙了我們從「煉」大模型走向「用」大模型的這條路。因此，開源迫在眉睫。透過開源讓更多人參與大模型的這場遊戲，將大模型從一種新興的AI技術轉變為穩健的基礎設施，這正在成為許多大模型締造者的共識。

也是在這樣的共識下，前不久阿里巴巴達摩院在雲棲大會上推出的中文模型開源社群“魔搭”（ModelScope）在AI界引起了很大的關注，目前國內的一些機構已經開始在該社群上貢獻模型，或是建立自己的開源模型體系。

國外的大模型開源生態建設目前來看要領先於國內。Stability AI是私營公司出身但自帶開源基因，有自己龐大的開發者社群，在開源的同時還有穩定的盈利模式。

今年7月釋出的BLOOM有1760億引數，是目前最大的開源語言模型，它背後的BigScience更是完美契合了開源精神，從頭到腳透露著與科技巨頭對弈的氣勢。BigScience由Huggingface帶頭髮起的開放式協作組織，並非正式成立的實體，BLOOM的誕生，是來自70多個國家的1000多名研究人員在超級計算機上訓練了117天的結果。

另外，科技巨頭也並非沒有參與大模型的開源。今年5月，Meta開源了1750億引數的大模型OPT，除了允許OPT可被用於非商業用途外，還發布了其程式碼以及記錄培訓過程的100頁日誌，可謂開源得十分徹底。

研究團隊在OPT的論文摘要裡直截了當地指出，「考慮到計算成本，如果沒有大量資金，這些模型是很難複製的。對於少數可透過API獲得的模型，無法訪問完整的模型權重，這致它們難以得到研究」。模型的全稱「Open Pre-trained Transformers」也表明了Meta的開源態度。這可以說是暗諷了一把由並不「Open」的OpenAI釋出的GPT-3（僅提供API付費服務）、以及今年4月谷歌推出的5400億引數大模型PaLM（未開源）。

在壟斷色彩一向濃厚的大廠中，Meta這番開源的舉動是一股清流。當時斯坦福大學基礎模型研究中心的負責人Percy Liang評價道：「這是朝著開闢研究新機遇邁出的令人興奮的一步，一般而言，我們可以認為更強的開放能夠使研究人員得以解決更深層次的問題。」

——2——

大模型的想象力不應止於AIGC

Percy Liang的這句話這也從學術層面回答了為何大模型一定要做開源的問題。

原創成果的誕生，需要開源來提供土壤。

一個研發團隊訓練出一個大模型，如果止步於在頂級會議上發表一篇論文，那麼其他研究人員得到的就只是論文中各種「秀肌肉」的數字，而看不到模型訓練技術的更多細節，只能花時間去復現，還不一定能復現成功。可復現性是科學研究結果可靠、可信的一個保證，有了開放的模型、程式碼和資料集，科研人員便能更及時地跟上最前沿的研究，站在巨人的肩膀上去觸及一顆更高處的果實，這可以省下許多時間成本、加快技術創新的速度。

國內在大模型工作上的原創力不足，就主要體現為盲追模型尺寸、但在底層架構上無甚創新，這是從事大模型研究的業內專家的普遍共識。

清華大學計算機系的劉知遠副教授向AI科技評論指出：國內在大模型的架構上有一些相對比較創新的工作，但基本上都還是以Transformer為基礎，國內還比較缺乏像Transformer這種奠基式架構，以及BERT、GPT-3這樣能夠引起領域大變革的模型。

IDEA研究院（粵港澳大灣區數字經濟研究院）的首席科學家張家興博士也告訴AI科技評論，從百億、千億到萬億，我們突破了各種系統上、工程上的挑戰後，應該要有新的模型結構方面的思考，而不再是單純地把模型做大。

另一方面，大模型在技術上要取得進步，還需有一套模型評估標準，標準的產生則要求公開和透明。最近的一些研究正在試圖對眾多大模型提出各種評估指標，但有一些優秀的模型由於不可訪問而被排除在外，如谷歌在其Pathways架構下訓練的大模型PaLM具備超強的語言理解能力，能輕鬆解釋笑話的笑點，還有DeepMind的語言大模型Chinchilla，都沒有開源。

但無論是從模型本身的出色能力還是從這些大廠的地位來看，它們都本不該缺席這樣的公平競技場。

一個令人遺憾的事實是，Percy Liang最近與其同事合作的一項研究表明，與非開源模型相比，目前的開源模型在許多核心場景上的表現都存在一定的差距。如OPT-175B、BLOOM-176B以及來自清華大學的GLM-130B等開源大模型，在各項任務上幾乎全面輸給了非開源的大模型，後者包括OpenAI的InstructGPT、Microsoft/NVIDIA的TNLG-530B等等（如下圖）。

圖注：Percy Liang et al。 Holistic Evaluation of Language Models

要消解這種尷尬局面，需要各個領頭羊們開源開放自家的優質大模型，這樣大模型領域的整體進展才能更快地上一個臺階。

在大模型的產業落地方面，開源更是一條必經之路。

若以GPT-3的釋出為起點，大模型經過兩年多的你追我趕，在研發技術上已經較為成熟，但在全球範圍內，大模型的落地都還處於早期階段。國內各個大廠所研發的大模型固然有內部業務的落地場景，但整體上尚未有成熟的商業化模式。

在大模型落地正處蓄勢待發之時，做好開源能夠為將來大規模的落地生態打好基礎。

大模型的本質決定了落地對開源的需求。阿里巴巴達摩院副院長周靖人告訴AI科技評論，「大模型是對人類知識體系的抽象與提煉，所以它能夠應用的場景和產生的價值是巨大的。」而只有透過開源，大模型的應用潛力才能在眾多有創造力的開發者那裡得到最大限度的釋放。

這是封閉了大模型內部技術細節的API模式所無法做到的。首先，這種模式的適用物件是低開發能力的模型使用者，對他們而言，大模型落地的成敗相當於完全掌握在研發機構的手中。

以提供大模型API付費服務的最大贏家OpenAI為例，據OpenAI的統計，目前全世界已經有300多個使用了GPT-3技術的應用程式，但這個事實的前提是OpenAI的研發實力底氣足、GPT-3也足夠強大。如果模型本身效能不佳，那麼這類開發者也就束手無策了。

更關鍵的是，大模型透過開放API所能提供的能力有限，難以承接複雜多樣的應用需求。目前在市場上只是催生出一些具有創意的APP，但整體上還處於一種「玩具」的階段，遠沒有達到大規模產業化的地步。

「產生的價值沒有那麼大，成本又收不回來，所以基於GPT-3 API的應用場景非常受限，很多工業界的人其實並不認可這種方式。」張家興說道。的確，像國外的copy。ai、Jasper這些公司是選擇做AI輔助寫作業務，使用者市場相對更大，所以才能產生比較大的商業價值，而更多應用還只是小打小鬧。

相比之下，開源開放做的是「授人以漁」。

在開源模式下，企業憑藉公開的原始碼，在已有的基礎框架上進行符合自己業務需求的訓練、二次開發，這能夠發揮大模型的通用性優勢，釋放遠超於現在的生產力，最終帶來大模型技術在產業中的真正落地。

作為目前大模型商業化落地最清晰可見的一條賽道，AIGC的這一波起飛已經印證了大模型開源模式的成功，然而在其他更多應用場景上，大模型的開源開放仍屬少數，國內外皆是如此。西湖大學深度學習實驗室的負責人藍振忠曾向AI科技評論表示，目前大模型的成果雖然有很多，但開源極少，普通研究者的訪問有限，這一點很令人惋惜。

貢獻、參與、協作，以這些關鍵詞為核心的開源，能夠匯聚大量懷抱熱情的開發者，共同打造一個可能具有變革意義的大模型專案，讓大模型更快地從實驗室走向產業。

——3——不可承受之重：算力

大模型開源的重要性是共識，但通往開源的路上還有一個巨大的攔路虎：算力。這也正是當前大模型落地所面臨的最大挑戰。即便Meta開源了OPT，但到目前為止它似乎還沒有在應用市場上泛起大的漣漪，究其根本，算力成本仍然是小型開發者的不可承受之重，先不說對大模型做微調、二次開發，僅僅是做推理都很困難。正因如此，在對拼引數的反思潮下，不少研發機構轉向了做輕量模型的思路，將模型的引數控制在幾億至幾十億之間。瀾舟科技推出的「孟子」模型、IDEA研究院開源的「封神榜」系列模型，都是國內走這條路線的代表。他們將超大模型的各種能力拆分到引數相對更小的模型上，已經在一些單項任務上證明了自身超越千億模型的能力。但毫無疑問，大模型的路必然不會就此停下，多位業內專家都向AI科技評論表示，大模型的引數依然有上升空間，肯定還要有人去繼續探索更大規模的模型。所以我們不得不直面大模型開源後的窘境，那麼，有哪些解決辦法？我們首先從算力本身的角度來考慮。未來大規模計算機群、算力中心的建設肯定是一個趨勢，畢竟端上的計算資源終歸難以滿足需求。但如今摩爾定律已經趨緩，業界也不乏摩爾定律將要走向終結的論調，如果單純地寄希望於算力的提升，是遠水解不了近渴。「現在一張卡可以跑（就推理而言）一個十億模型，按目前算力的增長速度，等到一張卡可以跑一個千億模型也就是算力要得到百倍提升，可能需要十年。」張家興解釋。大模型的落地等不了這麼久。另一個方向是在訓練技術上做文章，加快大模型推理速度、降低算力成本、減少能耗，以此來提高大模型的易用性。比如Meta的OPT（對標GPT-3）只需要16塊英偉達v100 GPU就可以訓練和部署完整模型的程式碼庫，這個數字是GPT-3的七分之一。最近，清華大學與智譜AI聯合開源的雙語大模型GLM-130B，透過快速推理方法，已經將模型壓縮到可以在一臺A100（40G*8）或V100（32G*8）伺服器上進行單機推理。在這個方向上努力當然是很有意義的，大廠們不願意開源大模型一個不言自明的原因，就是高昂的訓練成本。此前有專家估計，GPT-3的訓練使用了上萬塊英偉達v100 GPU，總成本高達2760萬美元，個人如果要訓練出一個PaLM也要花費900至1700萬美元。大模型的訓練成本若能降下來，自然也就能提高他們的開源意願。但歸根結底，這隻能從工程上對算力資源的約束起到緩解作用，而並非終極方案。儘管目前許多千億級、萬億級的大模型已經開始宣傳自己的「低能耗」優勢，但算力的圍牆仍然太高。最終，我們還是要回到大模型自身尋找突破點，一個十分被看好的方向便是稀疏動態大模型。稀疏大模型的特點是容量非常大，但只有用於給定任務、樣本或標記的某些部分被啟用。也就是說，這種稀疏動態結構能夠讓大模型在引數量上再躍升幾個層級，同時又不必付出巨大的計算代價，一舉兩得。這與GPT-3這樣的稠密大模型相比有著極大的優勢，後者需要啟用整個神經網路才能完成即使是最簡單的任務，資源浪費巨大。谷歌是稀疏動態結構的先行者，他們於2017年首次提出了MoE（Sparsely-Gated Mixture-of-Experts Layer，稀疏門控的專家混合層），去年推出的1。6萬億引數大模型Switch Transformers就融合了MoE風格的架構，訓練效率與他們之前的稠密模型T5-Base Transformer相比提升了7倍。而今年的PaLM所基於的Pathways統一架構，更是稀疏動態結構的典範：模型能夠動態地學習網路中的特定部分擅長何種任務，我們根據需要呼叫經過網路的小路徑即可，而無需啟用整個神經網路才能完成一項任務。

圖注：Pathways架構

這本質上與人腦的運作方式類似，人腦中有百億個神經元，但在執行特定任務中只啟用特定功能的神經元，否則巨大的能耗是人難以承受的。大、通用，且高效，這種大模型路線無疑具有很強的吸引力。「以後有了稀疏動態的加持，計算代價就不會那麼大，但是模型引數一定會越來越大，稀疏動態結構或許會為大模型開啟一個新天地，再往十萬億、百萬億走也沒問題。」張家興相信，稀疏動態結構將是解決大模型尺寸與算力代價之間矛盾的最終途徑。但他也補充說，在當下這種模型結構還未普及的情況下，再盲目將模型繼續做大確實意義不大。目前國內在這個方向上的嘗試還比較少，且不如谷歌做得更徹底。大模型結構上的探索創新與開源相互促進，我們需要更多開源來激發大模型技術的變革。阻礙大模型開源的，除了大模型的算力成本導致的低可用性，還有安全問題。對於大模型尤其是生成大模型開源後帶來的濫用風險，國外擔憂的聲音似乎更多，爭議也不少，這成了許多機構選擇不開源大模型的憑據，但或許也是他們拒絕慷慨的一個藉口。OpenAI已經因此招致了許多批評。他們在2019年釋出GPT-2時就聲稱，模型的文字生成能力過於強大，可能會帶來倫理方面的危害，因而不適合開源。一年後公開GPT-3時也僅僅提供了API試用，目前GPT-3的開源版本實際上是由開源社群自行復現的。

事實上，對大模型的訪問限制反而會不利於大模型提高穩健性、減少偏見和毒性。Meta AI的負責人Joelle Pineau在談到開源OPT的決定時，曾誠懇地表示，單靠自家團隊解決不了全部問題，比如文字生成過程中可能產生的倫理偏見和惡意詞句。他們認為，如果做足功課，就可以在負責任的情況下讓大模型變得可以公開訪問。

在防範濫用風險的同時保持開放獲取和足夠的透明度，這並非易事。作為打開了「潘多拉魔盒」的人，Stability AI享受了主動開源帶來的好名聲，但最近也遭遇了開源帶來的反噬，在版權歸屬等方面引起了爭議。開源背後的「自由與安全」這一古老的辯證命題由來已久，或許並沒有一個絕對正確的答案，但是在大模型開始走向落地的當下，一個清楚的事實是：大模型開源，我們做得還遠遠不夠。兩年多過去，我們已經擁有了自己的萬億級別大模型，在接下來大模型從「讀萬卷書」到「行萬里路」的轉變過程中，開源是一個必然的選擇。最近，GPT-4正呼之欲出，所有人都對它能力上的飛躍抱著極大的期待，但我們不知道，未來它能給多少人釋放多大的生產力？

（公眾號：雷峰網）

參考資料：

1。https：//arxiv。org/pdf/2211。09110。pdf

2。北京智源人工智慧研究院《中國超大規模智慧模型產業發展報告》

公眾號：雷峰網