統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

當地時間3月2日,英特爾、AMD、Arm、高通、臺積電、三星、日月光、Google雲、Meta(Facebook)、微軟等十大行業巨頭

成立了Chiplet標準聯盟,正式推出了通用

Chiplet(芯粒)的高速互聯標準“Universal Chiplet Interconnect Express”,簡稱“UCIe”,旨在定義一個開放的、可互操作的標準,用於將多個矽晶片(或芯粒)透過先進封裝的形式組合到一個封裝中。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

UCIe 標準旨在與其他連線標準(如 USB、PCIe 和 NVMe)一樣普遍,同時為Chiplet連線提供卓越的功率和效能指標,降低IP移植及產品SKU數量提升的成本,加速Chiplet設計的創新。

值得注意的是,臺積電、三星、英特爾這三個全球領先的晶圓代工廠都將支援這項技術,並且還包括了x86和Arm兩大最主流的處理器生態系統。不過可惜的是,目前

RISC-V 和 Nvidia並未加入對於該標準的支援。

什麼是Chiplet?

隨著半導體工藝製程的持續向3nm/2nm推進,電晶體的尺寸已經越來越逼近物理極限,所耗費的時間及成本越來越高,同時所能夠帶來的“經濟效益”的也越來越有限,“摩爾定律”已趨於失效。在此背景之下,

Chiplet與先進封裝技術被業界寄予厚望,希望能夠從另一個維度來延續摩爾定

律的“經濟效益”。

目前,主流系統級單晶片(SoC)都是將多個負責不同型別計算任務的計算單元,透過光刻的形式製作到同一塊晶圓上。比如,目前旗艦級的智慧手機的SoC晶片上,基本都集成了CPU、GPU、DSP、ISP、NPU、Modem等眾多的不同功能的計算單元,以及諸多的介面IP,其追求的是高度的整合化,利用先進製程對於所有的單元進行全面的提升。

而“Chiplet”則是反其道而行之,它是將原本一塊複雜的SoC晶片,從設計時就先按照不同的計算單元或功能單元對其進行分解,然後每個單元選擇最適合的半導體制程工藝進行分別製造,再透過先進封裝技術將各個單元彼此互聯,最終整合封裝為一個系統級晶片組。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

簡單來說,

Chiplet的主要優勢在於,

可以大幅提高大型晶片的良率,大幅

降低設計的複雜度,大幅降低

設計成本

製造成本

近年來,英特爾、AMD、賽靈思等大型晶片廠商都有開始在其相關產品當中採用Chiplet架構。

為什麼需要統一的Chiplet互聯標準?

芯智訊曾在《後摩爾時代的“助推劑”:Chiplet到底有何優勢,挑戰又有哪些?》一文當中,

詳細的介紹了Chiplet與先進封裝技術。同時也介紹了,

Chiplet所面臨的挑戰,其中就有特別提到“Chiplet之間的互聯標準”問題。

因為,Chiplet(芯粒)技術是指將原有的系統單晶片架構打散成多個獨立的芯粒,而要把這些芯粒透過先進封裝技術整合到一起之後,還需要能夠高速互聯起來,而怎麼去實現各個芯粒之間高速互聯,則是需要一個統一的互聯標準。

此前,眾多的晶片廠商都在推自己的互聯標準,比如

Marvell在推出模組化晶片架構時採用了Kandou匯流排介面;

NVIDIA推出的用於GPU的高速互聯NV Link方案;

英特爾免費向外界授權的AIB高階介面匯流排協議;

臺積電也有TSMC和Arm合作搞了LIPINCON協議;

AMD也有Infinity Fabrie匯流排互聯技術,以及用於儲存晶片堆疊互聯的HBM介面等等。

但是,隨著Chiplet技術的逐步發展,未來來自不同廠商的芯粒之間的互聯需求,必然會爆發。

特別是對於IP廠商來說,其商業模式可能會由賣IP轉向“IP晶片化”,即半導體IP核以矽片的形式提供,IP就是“芯粒”,可以

實現IP的“即插即用”和“重複利用”,以解決原有先進製程工藝芯片面臨的效能與成本的矛盾,並降低較大規模晶片的設計時間和風險,實現從SoC中的IP到SiP封裝中以獨立的芯粒形式呈現的IP。

但是,如果各家晶片廠商都在推自己的標準,

這將導致不同廠商的

Chiplet之間的互聯障礙,限制Chiplet的發展。

在此背景之下,如果能夠有一個統一的Chiplet互聯標準,那麼自然將加速整個Chiplet生態的發展。於是,作為頭部的處理器大廠及晶圓代工廠,自然是有動力來共同形成一個統一的標準來解決這一問題。

UCIe詳解

據介紹,UCIe 互連將實現Chiplet(如核心、記憶體和 I/O)之間的標準化連線,其外觀和操作類似於片上連線,同時還支援與其他元件的片外連線。這些設計甚至可以實現足夠低的用於機架級設計的延遲和足夠高的頻寬,並且依賴於現有協議,如 PCIe 和 CXL(Compute eXpress Link )。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

具體來說,UCIe 是一種分層協議,具有物理層和 die-to-die 介面卡。物理層可以包含來自多家不同公司的所有型別的當前封裝選項。這包括標準 2D 封裝和更先進的 2。5D 封裝,如英特爾的EMIB、臺積電基於中介層的 CoWoS,以及扇出中介層方法,如 FOCoS-B。UCIe 標準未來也將最終擴充套件到 3D 封裝互連。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

UCIe的協議層執行在物理層之上,最初的規範依賴於 PCIe 或開放的CXL(最初由英特爾捐贈) 協議。PCIe 協議提供廣泛的互操作性和靈活性,而 CXL 可用於更高階的低延遲/高吞吐量連線,如記憶體 (cxl。mem)、I/O (cxl。io) 以及 GPU 和 ASIC (cxl) 等加速器、快取。雖然該規範以 PCIe 和 CXL 作為當前協議開始,但將來會擴充套件到包括其他協議。

英特爾之前曾為 EMIB 使用過兩種協議:高階互連匯流排 (AIB) 和 UIB。英特爾捐贈 AIB 作為開源免版稅之前試圖建立標準化的小晶片生態系統的標準,但這並沒有獲得太多的廠商跟進。相比之下,CXL 現在是一種被廣泛採用的標準,因此將它與 UCIe 一起使用更有意義。但是,UCIe 和 AIB 在本質上並不相容(特殊的子集設計可以同時使用兩者),因此儘管英特爾將繼續完全支援當前的 AIB 實施,但它將停止所有進一步的開發並遷移到 UCIe。

此外,UCIe 規範還包括一個重定時器設計,可以擴充套件晶片封裝外的連線,實現與其他元件的光學和電氣連線,例如池化記憶體、計算和加速器資源。鑑於出色的效能指標,UCIe 聯盟設想該互連標準最終將使該行業幾十年來一直在努力構建有意義的數量的機架級分解系統型別成為可能。晶片到機架的連線可以使用原生 CXL 進行 PCIe 通訊(無需轉換),或許最終提供此類設計所需的低延遲和頻寬。此外,如果需要,可以使用其他型別的協議。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

UCIe聯盟還給出了非常激進的效能和麵積目標,並且有許多活動部件可以為廣泛的用途定製連線,不僅僅是最高階的裝置。該聯盟將目標劃分為兩個廣泛的範圍,使用標準的2D封裝技術和更先進的 2。5D 技術(EMIB、CoWoS 等)。當然,先進的封裝選項提供了更高的頻寬和密度。

可配置因素包括資料的傳輸速率( 4 到 32 GT/s)、寬度(通道數)、凸塊間距(連線密度)和通道範圍(物理連線的長度,2毫米到25毫米)、延遲在 2 納秒以下。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

對於追求高效能的設計,通常都是將盡可能多的降低延遲和提升頻寬,並佔用更小的面積。然而,大多數設計不需要那種水平的效能,因此設計師可以利用多種選項來定製他們的設計。因此,“關鍵指標目標”部分將根據各種不同的設計選擇而有所不同。

例如,頻寬的Shoreline  (GB/s per MM) 和 頻寬密度 (GBs per mm^2) 預測基於 45 微米凸塊間距。但是,該規範支援低至 25 微米的凸塊間距,這將使這些值增加三倍或更多。這意味著對於 UCIe 連線,我們可以看到每平方毫米的吞吐量高達3。8 TB/s。但是,放寬這些值可以提高電源效率,突出顯示可用於滿足幾乎任何用例的多個最佳化軸。此外,UCIe聯盟在構建規範時考慮了電源效率,適應了諸如從開機和關機狀態快速進入/退出(亞納秒級)等高階功能。

統一Chiplet互聯標準!英特爾AMDArm臺積電等十大巨頭成立UCIe聯盟

總體而言,UCIe 規範旨在使得Chiplet封裝互連儘可能類似於片上互連,同時提供大量選項,可以實現所需的任何型別的效能或封裝技術。

雖然,Open Compute Project專案組推出的Bunch of Wires (BoW) 規範也同樣著眼於統一Chiplet互聯標準。BoW 規範旨在使Chiplet設計自主化,並擁有令人印象深刻的效能規範,但它並不那麼靈活。例如,BoW 提供 0。7 至 0。5 pJ/bit(皮焦耳/位元)的功率效率。相比之下,UCIe可用的各種選項可實現 0。5 至 0。25 pJ/bit 的任何功率效率(這可能因使用的製程節點而異)。此外,BoW 規範支援固定的 16 GT/s,而 UCIe 是可配置的,最高可擴充套件到 32 GT/s。而且UCIe 在其他指標方面也處於領先地位,例如頻寬密度(1280 Gbps 對比高達 3。8 Tb/s),並且還僅限於 MCP 封裝,而 UCIe 可以支援大多數 2D 和 2。5D 封裝選項。

編輯:芯智訊-浪客劍    資料來源:tomshardware。com、uciexpress。org