反思:中國超級計算機研製的五大短板

反思:中國超級計算機研製的五大短板

編者按:

科研創新不是帶兵打仗。如果沒有實際應用作為核心驅動力,而是單純以“突破封鎖”、實現短期指標優勝為第一目標,在長期發展中難免面臨困境和尷尬。檢視中國超級計算機的研製歷史,除了敬佩那些付出辛勞甚至生命的科研人員,在當下的歷史語境中,還更要反思其中的教訓,才能讓我們的科技創新之路走得更堅實。

撰文 | 司宏偉

超級計算機(Supercomputer),又稱巨型計算機,是指在一定的生產工藝條件下,採用最先進技術、工藝設計生產出來的功能最強、運算速度最快、儲存容量最大、檔次最高、面向科學與工程的電子計算機系統。超級計算機通常由成千上萬個處理器(機)組成,具有巨大的數值計算能力和資料處理能力,能計算普通個人計算機和伺服器不能完成的大型複雜課題。工業界的普遍標準認為,浮點運算速度為每秒1億次以上的數字式電子計算機才是超級計算機。超級計算機一向被稱為國之重器,是世界各國競相角逐的科技制高點,也是一個國家科技實力的重要標誌之一。

中國第一臺超級計算機是國防科學技術大學於1983年12月研製成功的“銀河-I”,這臺計算機在國防建設和國民經濟發展中發揮了重要作用,中國也成為世界上少數幾個能夠研製超級計算機的國家之一。此後我國在超級計算機研製方面捷報頻傳,如國防科大、國家平行計算中心、中科院計算所、聯想集團等單位相繼推出了“銀河”“神威”“曙光”“深騰”等一系列國產超級計算機系統;2010年11月,中國千萬億次超級計算機“天河一號”在世界超級計算機五百強排行榜(TOP500)上首次問鼎冠軍,2013—2018年,中國“天河二號”和“神威·太湖之光”超級計算機連續排位第一名,實現世界超算“十連冠”。

40多年來,中國超級計算機研製從“零的突破”到“世界之巔”,集中地反映了這一國家大型科學工程專案著眼國家戰略需求,堅持走中國特色自主創新之路的科研歷程。不僅滿足了中國尖端技術研究的急需,支援了國民經濟建設,也積累了一整套研發高效能計算機的經驗,使中國人在掌握計算機科學技術上向前跨越了一大步,成果和效用自不待言。但是,中國超級計算機研製歷程的背後,一些發展中的問題還沒有被足夠重視,一些研究的不足還需要關注和探討。特別是2018—2020年,美國“頂點”(Summit)和日本“富嶽”(Fugaku)等超級計算機先後超越中國的“神威·太湖之光”成為世界最快超級計算機,而中國的新一代超級計算機遲遲未能推出。

因此,中國超級計算機到今天有必要進行自我總結,對其面臨的深層次問題進行一些反思,以期在全球高階科技、尤其是高效能計算機研發領域競爭異常激烈的今天,實現創新驅動發展,為決策者及研究同行提供現實參考。

01 自主創新路向何方

“創新”在科技類文章中是一個常用詞,大量文獻中使用對“創新”概念的闡述均來源於20世紀初美籍奧地利經濟學家約瑟夫·熊彼特(J。 A。 Joseph Alois Schumpeter,1883-1950),他在《經濟發展理論》一書中對創新進行了系統的理論研究。熊彼特的研究雖然具有普適性,但嚴格意義上講,他對“創新”的闡釋主要還是針對經濟領域和社會生產領域,而並非科學技術領域。20世紀90年代,中國學界開始主動借鑑西方創新理論研究,並結合自身特點和實踐歷程對有關理論進行完善。進入21世紀,中國《國家中長期科學和技術發展規劃綱要(2006—2020年)》中,對自主創新的定義是“透過擁有自主智慧財產權的獨特的核心技術以及在此基礎上實現新產品的價值的過程”,主要包括原始創新、整合創新和引進消化吸收再創新三種形式。原始創新指前所未有的科學發現、技術發明、原理性主導技術等創新成果;整合創新指透過對各種現有技術的有效整合,形成有市場競爭力的產品或者新興產業;引進消化吸收再創新是指在引進國外先進技術的基礎上,學習、分析、借鑑,進行再創新,形成具有自主智慧財產權的新技術。

由於國外技術封鎖和國內技術落後的原因,中國首臺超級計算機銀河-I在研製之初,就確定了“走一條自力更生、學習與獨創相結合,起點跟得上當時國際水平的新路子”。銀河-I是以美國第一臺可持續效能達到每秒1億次以上速度的向量超級計算機Cray-1為範本研製的,它在總體方案上瞄準Cray-1,借鑑其成功的設計思想;同時對當時國內沒有或是不能保證質量的核心元器件,設法從外國引進。因此,銀河-I並不是完全自主創新的成果,而是小部分原始創新和大部分整合創新結合的產物。

例如,對於無法洞悉Cary-1究竟如何實現億次計算,銀河-I研製人員透過原始創新,突破了雙向量陣列體系結構、改進浮點倒數近似迭代演算法、指令連結與流水控制、素數模雙匯流排交叉訪問的儲存控制等關鍵技術。而銀河-I的整體工程實現,是透過大規模綜合整合創新完成的。事實證明,當時這樣做既為整個工程爭取了時間,節約了研製經費,又保證了銀河-I系統性能的高水平。20世紀七八十年代,中國與西方發達國家存在較大技術差距,銀河-I研製利用改革開放條件,走原始創新和整合創新相結合的路子有較強的現實意義。此後採用同樣模式又相繼誕生了銀河-Ⅱ、銀河-Ⅲ等系列超級計算機。同時,機制更為靈活的中國科學院計算機技術研究所、聯想集團等單位和企業,採用“引進-消化-吸收-再創新”的方式,研發成功“曙光-1”“深騰-1800”等系列超級計算機,完成了從大規模並行體系結構的實現,到可擴充套件共享儲存並行體系結構的跨越。

但是,中國超級計算機的自主創新之路並不平坦。2010年11月,當“天河一號”成為世界最快的超級計算機,其核心部件90%以上卻依然採用了美國英特爾公司和AMD公司最先進的CPU(中央處理器)和GPU(圖形加速器)。連續六次登頂世界超級計算機500強之首的“天河二號”,其硬體系統主要部件的計算陣列全部採用美國商用微處理器。2010年曾排名世界第二的中國“曙光星雲”超級計算機,核心部件全部是由國外英特爾和英偉達晶片構建的。在中國已成為世界第二大經濟體的今天,國產超級計算機系統核心部件仍大量使用國外進口晶片就不免受到公眾的質疑。事實上,以整合創新為主的模式最終只能仿製別人、依靠別人,引進消化吸收再創新的模式最後會落入“落後-引進-再落後-再引進”的陷阱。2015年,美國政府禁止了英特爾等企業向中國出口超級計算機有關的設施與技術;2018年,美國商務部又簽署了禁購令,要求所有美國公司不得向中國企業出口包括晶片、軟體、作業系統等商品。這對從事中國超級計算機研製的一些單位產生了不利影響,使已經執行的某型超級計算機系統未能繼續升級,甚至導致某項百億億次級計算系統研製進度一再推遲。

但是,無論任何時候,最核心、最關鍵的技術是買不來的,只能靠我國自己研發。“神威·太湖之光”使用自主研製的國產CPU作為核心部件,開始探索“完全原始創新”研發模式。它是世界上首臺執行速度超過十億億次的超級計算機,也是中國第一臺全部採用國產處理器構建的超級計算機。然而,“神威·太湖之光”使用的國產“申威26010”眾核處理器與當今國際最先進的晶片相比,仍然有不小差距。著名超級計算機專家、中國科學院院士周興銘坦言,“目前國內製造的CPU從整體上來看效能低、功耗高,物理設計比國外差一代以上,工藝差兩代以上”。

過去40多年,國家在超級計算機晶片技術原始創新等方面的研究和投入都遠遠不足,依靠引進和整合去追求“世界第一”並不是長久之計,中國超級計算機自主創新任重道遠。

02 “重硬輕軟”歷史頑疾

20世紀中後期,中國計算機行業普遍對軟體的重要性認識不足,一直存在重視硬體、輕視軟體的現象,軟體水平與西方國家差距很大。1978年銀河-I研製初始,為了解決好這個問題,科研人員決定把主機與軟體共同列為主攻方向,並立即啟動軟體開發工作,總設計師慈雲桂還親自兼任軟體總體組的組長。但是,由於國際上計算機軟體系統迅猛發展和國內軟體技術力量薄弱的現實,直到1983年銀河-I研製完成,其包括彙編器、編譯程式、作業系統在內的軟體系統僅僅才做到與Cray-1相容。同時,銀河-I在軟體方面的缺點還有不少:並行演算法和並行程式設計的研究不夠;區域性網系統研究與建設還沒有及時跟上;繪圖軟體沒有同步開發,以致未能滿足部分大型使用者上機的急需;與使用者結合的科學庫、資料庫和專用程式包少,導致某些使用者單位本身應用程式在銀河-I上的向量計算效率存在困難,等等。

時至今日,大到國與國之間的競爭,小到重點專案的完成,越來越離不開擁有強大計算能力的超級計算機,中國的超算遇到難得的發展好時機,但“重硬輕軟”的問題還沒有得到根本性的改變。與微處理器晶片等硬體相比,中國與西方強國在軟體系統上的差距更大。例如“天河一號”“天河二號”超級計算機安裝的國產“麒麟”作業系統,目前都還沒有形成大規模的軟體開發與使用生態鏈。

要用好超級計算機,必須在每個專業學科領域——工業、流體力學、結構模擬、生命科學等,都開發出專門的應用軟體。超級計算機應用軟體是具體的體現,應用問題不同,與之相應的應用軟體則也不同。應用軟體的開發、研製和驗證是一個系統工程,應用問題越複雜,應用軟體的開發研製越困難、研製週期越長。而在中國,這類軟體的自主研發能力極其有限,應用軟體的發展落後於計算機系統的發展成為不爭事實。軟體在超級計算機應用發展中處於關鍵性地位,應用軟體的滯後也嚴重影響了中國超級計算機的實際使用。

發展滯後的原因與中國在超級計算機領域的發展政策與路徑有關。西方發達國家超級計算機的發展,是因為需要解決某些具體應用需求難點而在計算層面進行創新,從而帶動系統硬體不斷升級——這一過程是先“軟”後“硬”,或者“軟”“硬”同步。中國發展超級計算機始終是硬體優先、軟體隨後,其結果是儘管計算速度上去了,機器上執行的應用軟體自主研發跟不上,大多仍使用國外現成的。一旦國外限制對中國出口高階、關鍵領域的應用軟體,就會進一步造成國產超級計算機相關應用的缺失。

超級計算機應用軟體作為戰略科技創新基本工具,直接服務於國家重大科技專案,專業性和多學科交叉性非常強,切實需要國家在政策層面上“軟”“硬”並重,實施長期的規劃、穩定的經費支援和重點專項投資。

03 應用能力始終不足

超級計算機從誕生之日起就有明確的應用目的。1976年美國超級計算機Cray-1一經問世,首先被美國軍方用於研製增強安全效能的戰略核彈頭。該機連續生產的16臺和後續系列機型,始終應用於美國“核霸權”戰略需求。美國超級計算機的建設方一般都是使用方,先有計算量需求,根據所需計算量設計系統,再根據需求設計超級計算機。中國則不同,是先進行建設,盡力提高建能,再嘗試滿足更高的計算需求。

銀河-I研製,某種程度上說是為了首先“打破西方技術封鎖”的政治需要,象徵意義大於現實意義。銀河-I一共只生產了3臺,一臺在河北涿縣石油部物探局研究院作為“銀河地震資料處理系統”主機,一臺在四川綿陽作為西南計算中心主機,一臺留在湖南長沙國防科大計算機研究所作為業務主機。銀河-I研製成功後,由於沒有持續的新應用需求,研製單位一直等待了5年,才使後續十億次超級計算機銀河-Ⅱ批准立項。在計算機科學技術飛速發展的年代,5年時間消耗十分殘酷。20世紀末,在超級計算機技術支援下,美國、日本等國的汽車、飛機、航天、電影等一大批產業發展很快,超級計算應用已經與經濟發展實現了融合。而在同一歷史時期,中國超級計算機應用還僅侷限於氣象、航天等專業領域,應用的瓶頸不僅導致了超級計算機資源無法充分應用到社會、科研及生產之中,同時也限制了國產超級計算機自身的發展。

進入新世紀,超級計算機開始作為一種公共設施面向社會提供應用服務,美國、德國、法國、英國、日本等發達國家相繼開始建設國家級的超級計算中心。超算中心成為基於數值模擬進行研發創新的主要平臺和一個國家或地區科技競爭力的主要標誌之一。

2000年,中國成立了首家超算中心——上海超級計算中心。截至目前,中國已有國家超級計算天津中心、濟南中心、長沙中心、深圳中心、廣州中心、無錫中心等6個國家級超算中心,以及上海、成都、合肥等區域性超算中心。這些超算中心的應用狀況如何?曾有媒體公開報道,安裝有“天河一號”超級計算機的國家超算長沙中心自2010年11月開始籌建,2013年9月“天河一號”主機裝置安裝到位後一直封存,並沒有正式運營,直到2014年6月才啟動測試,閒置了將近一年時間。而“天河二號”所在的國家超算廣州中心2014年落戶以來,嫁接國家重大領域的科研專案較少,應用軟體開發的週期過長,技術支撐尚未形成系統。2015年該中心的利用率僅為60%;使用者佔比上,83%是政府機關、高校、科研院所,企業使用者只有17%,存在嚴重的“業務荒”。

一邊在努力提升科技創新能力,另一邊卻讓世界最先進的超級計算機閒置——這就是當前中國超級計算機應用的尷尬境地。其實,應用比研發更難。如何讓超級計算機的應用對接高等院校、科研院所,特別是工業企業,新業態中小企業,服務社會經濟,助力戰略新興產業,帶動科技創新發展,是必須要認真思考的問題。只有大力推動普及化應用,應用需求與產業化規模得到有效提升,中國超級計算機才能真正做大做強。

04 能耗過高飽受詬病

在超級計算機發展的所有挑戰中,能耗是最嚴峻的問題之一。能耗問題與超級計算機的體系結構、工藝水平和製冷技術等密切相關。由於超級計算機系統規模越來越大,體系結構和工藝水平對於降低功耗影響有限,機器的散熱製冷變得日益重要。美國Cray-1的功耗非常大,本身達到115千瓦。為防止其因高溫而發生熔斷,研製者為它設計了一個大功率氟利昂液態製冷裝置用於散熱,這更增加了耗能。銀河-I研製初期,技術上達不到採用液態製冷降低耗能,而改用傳統的風冷系統實現散熱,全機能耗達到25千瓦,是20世紀80年代國內能耗最大的計算機。

隨著超級計算機的不斷升級,大規模平行計算系統需要花費更多能量,其能源消耗呈逐年增長趨勢。能耗也成了與計算速度同等重要的度量指標,國際業界科學家從2007年起發起與TOP500同步的Green500排行榜作為國際超級計算機能耗水平的權威評價。美國2012年10月和2018年6月排名世界最快超級計算機的“泰坦”“頂點”都是相對能耗較低的機器,其製冷技術也發展到了更先進的浸入式液冷模式。

“神威·太湖之光”和“天河二號”超級計算機使用大規模通風散熱結合水力空調系統用於製冷,總體上不利於降低能耗。“神威·太湖之光”一年的用電量達到15兆瓦,相當於3個清華大學的用電量。“天河二號”能耗高達24兆瓦,是“天河一號”的6倍,問世後即成為當時世界超級計算機中功耗最大的機器。“天河二號”年耗電量約為2億度,一年僅電費就要1億元人民幣,全速運算的話,電費更高達1。5億。此外,為了應對全機散熱系統本身因為高負荷產生的高溫,廣州市政府在超算中心3公里外專門為“天河二號”建設了一個冷水廠,每天不間斷運送8攝氏度的水為散熱系統降溫,這又增加了相當多的能源消耗,一度引起國內輿論批評。民眾甚至調侃,未來可以把超級計算機建到核電站旁邊。從現實角度考慮,為超級計算機配套一個核電站是不可能的,但如果按現有條件發展,中國下一代超級計算機系統的電力消耗可能將會大到無法接受。測算表明,若以目前傳統技術方法構建一臺運算速度達每秒百億億次以上的超級計算機,能耗將會超過三峽水庫發電量的1/3。

當前國際上已經改變單純用計算效能排名的辦法,開始以能耗效能比等其他要素進行超級計算機的排名。國產超級計算機發展也應該面向實際,在系統功耗、系統實用效率、系統穩定性以及整體成本上統籌考慮,做出整體能效高、使用者歡迎的機器,而不是不計成本地、片面地追求計算速度。要是不能很好解決高居不下的能耗問題,即使中國研發出速度再快的超級計算機,它的實用價值和存在意義在全球範圍內也會變得非常小。

05 超算人才仍是短板

超級計算機研製、執行、發展,最終還是要靠人才支撐。中國的超級計算機人才瓶頸問題始終解決的不好。

第一,對超算人才的健康保障不夠。研發中國首臺超級計算機銀河-I是當時的國防重大科研任務,研製方過於強調採取“作戰式”“命令式”的做法來加快推進工程進度,開誓師大會、寫請戰書、立軍令狀、封閉攻關,一系列高壓緊張的工作方式,對科研人員的身心健康產生了很大影響。銀河-I總設計師兼總指揮慈雲桂,繁重的研製任務嚴重損耗了他的身體和精力,1983年銀河-I研製成功後就退居二線,不久就因積勞成疾不幸病逝。還有一些中青年科研骨幹,在銀河-I研製期間就英年早逝,例如鍾士熙教授49歲、蹇賢福副教授43歲、王育民副研究員41歲、張樹生講師40歲、俞午龍助理研究員35歲,等等。有人做過統計,在崗犧牲的科研人員數量足夠組織起另一支銀河-I研製隊伍。直到十年後1993年銀河-Ⅱ研製成功,研製方開始逐漸開始關注對科研人員的身心健康保障問題。

第二,對超算人才的獎勵激勵不夠。對人才的獎勵激勵無外乎就是精神方面或者物質方面。1983年銀河-I研製成功曾獲特等國防科技成果獎,由於歷史條件所限,只有8人能夠因此榮獲個人二等功,國家頒發給主要完成者的最高獎金也不過400元。而到了2009年“天河一號”研製成功時,這支數百人的科研團隊卻僅有十幾人可以在專案成果獎上掛名獎勵。而“天河二號”研製經費已高達10億元以上,卻不能給參研人員發1分錢的物質獎勵。獎勵激勵不足,加上體制機制改革,導致近年來“天河”超級計算機研發團隊有多名副總設計師、一大批主任設計師級別的科研人員紛紛轉業、調崗、退役、離職,造成人才不斷流失。

第三,對超算人才的培養不夠。超級計算機已成為世界各國科技創新基礎設施的大背景下,未來競爭著力點已由單純的超算峰值效能競爭逐漸轉向關注超算普及以及高水平人才培養。美國現有超級計算機高階專業人才已經超過1萬人,而在中國,超算方面的人才奇缺。深圳、廣州等超級計算中心給高階技術人員開出的條件是年薪100萬元,即使這樣的高薪待遇都往往一才難求。此前,從本科起就專門針對超級計算機培養人才的國內大學只有清華大學和國防科技大學。對於中國缺乏超算人才、更缺乏超級計算機與多學科交叉複合型人才的現狀,這樣的培養規模顯然不夠。中國半導體行業協會積體電路設計分會理事長、清華大學微電子研究所原所長魏少軍在談到超算人才培養問題時,曾憂心忡忡地說:“這幾年,我們在(超算)人才培養上遇到一個不大不小的麻煩,就是很多的學生畢業以後去搞投資,搞金融了,當然我自己的學生也有出去作投資的,去做官員的……這個情況還沒有緩解,所以我們人才團隊的短缺是非常可怕的。”

機器不是原創的驅動力,只是實現原創的工具,人才才是推動科技進步最根本的源泉。超級計算機研製專門人才的培養和積累難以在一朝一夕完成,不僅是目前,乃至今後相當長的一段時間內依然是行業性的難題,中國在這方面亟待改善。

作者簡介:司宏偉,1982年生,內蒙古呼和浩特人,理學博士,清華大學人文學院科學史系博士後。

本文經授權轉載自微信公眾號“國科大科技史與科學文化”,原標題為《中國超級計算機研製反思——從第一臺國產超級計算機“銀河-I”說起》,刊載於《科學文化評論》第18卷 第1期。