本文由半導體產業縱橫(ID:ICVIEWS)編譯自semiengineering
隨著越來越多的 SoC 在前沿技術上分解,行業學習范圍不斷擴大,為更多第三方芯片打開了大門。
將 SoC 分解成各個組成部分,然后以某種異構方式將這些部分和其他部分組合在一起的技術已初具規模,這得益于互連、復雜分區方面的進步,以及業界對什么可行、什么不可行方面的了解。
雖然即插即用的愿景沒有改變,但實現這一愿景比最初想象的要復雜得多。它因應用程序和工作負載的不同而有很大差異,進而影響時間、延遲和成本。它還可能因封裝類型、是否包含 AI、調度和優先級所需的軟件數量以及所使用的互連類型而異。
Arm系統架構師兼研究員 Rob Dimond 表示,互連是粘合劑。它們包括位于芯片上的片上網絡 (NoC)、位于芯片內的所有其他互連,以及跨芯片傳輸數據的UCIe芯片到芯片連接。互連還可與其他高速接口配合使用,將數據從一個邊界傳輸到另一個邊界。
“Chiplet 互連的根本挑戰在于了解如何分解,”Cadence高級產品營銷部總監 Arif Khan 表示。“你要劃分計算和數據流問題。你的架構是什么?你是如何劃分的?你有 chiplet 內的數據流,然后數據流經這些 chiplet。這完全取決于你的數據流向何處以及上下文是什么。例如,你要解決的問題是什么?如果你正在查看 GPU 類型的應用程序,你甚至無法將那么大的語言模型放入單個 GPU。你正在查看的是一個擁有數百萬個 AI 工廠。然后你正在查看不同的一致性模型。你會發現,即使是標準協議也無法解決這個問題。”
如今,這些互連通常都是導線(盡管未來可能會有封裝之間甚至封裝內部的光互連,或者兩者兼而有之)。但并非所有導線的行為方式都相同。它們可能直徑不同,以不同的密度封裝在一起,絕緣性也不同,甚至材料也不同。
Blue Cheetah首席執行官兼聯合創始人 Elad Alon 表示:“你能獲得的線路數量以及這些線路的特性非常不同。這就是你必須以不同方式做事的驅動力。另一個因素——基本上不是由物理驅動,而更多的是出于實用工程驅動——是人們常常希望隔離跨芯片邊界的時序接口。當芯片采用 2.5D 或 3D 封裝時,有一定的操作空間,但將這些時序接口彼此隔離是典型的設計決策。這主要源于它在不同的芯片中物理分區的想法。‘我不想做這種多次跨芯片時序收斂練習。’并不是說你不能。只是出于實際原因人們不想這樣做。這是芯片互連與芯片上互連的另一個不同之處。片上互連將位于單個時鐘域內,并可由更“標準”的布局布線流程驅動。但事實上,線路越少,意味著需要更快地運行它們。隔離時序接口是模擬人員實現這一目標的地方。顯然,它盡可能小面積、低功耗。”
由于芯片互連需要通過芯片間連接傳輸數據,因此這些物理接口通常速度非常快但相對較窄。然而,與 SoC 互連不同,芯片互連通常像通信協議一樣進行封裝,而不像片上總線。
Arteris產品管理總監 Ashley Stevens 解釋說:“芯片互連通常允許數據通過非常寬的接口以分組格式通過芯片間鏈路發送,這些數據可以序列化并通過鏈路發送。芯片間互連需要支持各種邊帶信號,在 SoC 中,這些信號通常由點對點信號處理,例如中斷和電源管理。這些信號也需要以分組格式通過與正常內存和外圍設備事務相同的鏈路從芯片間傳輸,因此不應被遺忘。”
這些互連也需要與應用相匹配。AlphawaveSemi產品營銷和管理副總裁 Letizia Giuliano 表示:“Chiplet 需要高效的 D2D(芯片到芯片)互連,該互連在關鍵參數上表現優異。我們需要為 Chiplet 應用定制 D2D 互連,以優化封裝中給定系統上該接口的總體 TCO(總擁有成本)。面積效率以帶寬海岸線密度來衡量,該密度可實現每毫米海岸線最高 Tb/s 的數據傳輸。功率就是能源效率,pj/b 需要盡可能低。當我們在 Chiplet 中使用 D2D 互連時,我們會創建 I/O 電路的重復。物理層和數字邏輯都會被添加,它們需要減少對整體功率預算的影響并適應整體 TCO。”
延遲是一項關鍵的性能指標,需要盡量縮短發射器 (TX) 和接收器 (RX) 之間的傳輸時間。“D2D 互連的設計必須在電路復雜性和 PPA 之間取得微妙的平衡,這是同類產品中最好的,”Giuliano 說道。“這確保我們不會讓電路過大而失去對應用空間的關注。例如,具有單端架構的簡單接口和良好的電壓調節平衡有助于提高電源效率。同時,模擬 TX 和 RX 中的緊湊電路需要仔細研究失配和噪聲。”
要最大限度地發揮異構集成的優勢,需要深入了解最終應用和工作負載,以及如何為該特定領域設計最佳解決方案。“我們不能脫離應用領域,也不能將總體 TCO 降至最低,因此 D2D 架構需要針對不同類型的封裝和凸塊間距進行設計。在設計系統時,我們需要考慮所有電路缺陷,以實現切實可行的實施,”Giuliano 指出。“我們正在從片上轉向封裝。在封裝中的芯片系統中分解 SoC 芯片的自然方式是在封裝上傳輸片上 SoC 網絡,因此我們正在為標稱的片上傳輸層添加物理層傳輸。”
在芯片中移動數據
有許多競爭協議可用于移動數據。AMBA CHI、UCIe 和 BoW 最為人所知。哪個組合最終勝出還有待觀察。但它們本質上執行相同的功能,即在芯片之間快速移動數據。
Arm 的 Dimond 表示:“AMBA CHI是經過封裝的、廣泛使用的和公開授權的,并且是 AMBA CHI C2C 的基礎,使其能夠使用合適的芯片物理層和鏈路層在芯片之間進行連接。為了將主板上的組件聚合到一個封裝中,最好在針對芯片優化的新物理層上使用已建立的互連標準。為了將 SoC 分解為多個芯片,使用已建立的 SoC 互連同樣有意義。”
Arm 認為,chiplet 互連將從現有的板載互連或現有的 SoC 互連演化而來。但對于 chiplet 架構,需要考慮更多不同的層次。
Dimond 解釋道:“對于物理層,芯片之間的芯片間互連可能會支持更少的物理連接,這些物理連接可在更長的距離內運行。可能需要 SerDes。對于 AMBA CHI C2C,協議被打包以支持在物理層上運行。協議層將需要一個架構規范來提供所需的長期穩定性,以支持隨著時間的推移而重復使用,并且隨著生態系統的出現,可能支持價值鏈中不同參與者之間的重復使用。”
在很大程度上,芯片到芯片的通信是一個分區問題,而且它在汽車設計中尤其具有挑戰性。
西門子數字工業軟件混合和虛擬系統副總裁 David Fritz 表示:“舉個例子,我可以從 X 公司獲得一個 chiplet,它上面有一個完美的 CPU 復合體,但沒有 GPU。我正在嘗試為 IVI 做點什么,因此我需要一個 GPU 來進行渲染。有些公司會說,‘如果我把我們的 GPU 放在一個獨立的 chiplet 里,然后把這個 chiplet 稱為 droplet,怎么樣?’它只是一個不能獨立的子系統模塊。人們會創建這些 droplet,然后他們會說,‘你拿著我們的 droplet 去其他公司,他們會在它周圍放上他們需要的東西。’所以現在發生的情況是,我們又回到了銷售硬宏的階段。‘我這里有 GPU,但我的內存在另一個 chiplet 上?’哦,等一下,這行不通,因為我沒有 GPU 所需的帶寬,無法支持高分辨率和多顯示器。’所以,如果你沒有工具來探索這個領域的復雜性,并得出更深層次、更硬性的、不直觀或不明顯的要求,那么你最終會做出錯誤的決定,而你最終也不會得到有競爭力的產品。”
異構系統中的分區不僅僅涉及硬件。軟件也需要跨芯片兼容。
“如果你考慮推理,推理通常使用較小的數據集并據此做出決策,”Eliyan戰略營銷副總裁 Kevin Donnelly 說。“處理元素可能都包含在一個芯片內,你需要做的是與外界和內存進行互連。這決定了你擁有什么樣的互連,以及這些互連需要什么樣的帶寬。這將推動類似推理的芯片組的分區。如果是訓練,并且你要處理像 NVIDIA 那樣的海量數據集,那么他們關心的是采用大量非常大的分解芯片并使它們看起來無縫銜接,就像它們實際上只是越來越大的單片芯片一樣。在這些芯片中,他們需要盡可能緊密地互連 GPU 核心,并在芯片之間獲得盡可能多的帶寬。片外互連問題正是他們做出分區決策的原因,這也是他們將其旋轉 90 度的原因,而之前其他人的做法是試圖讓兩個巨大的單片芯片看起來像一個更大、更龐大的單片芯片。然后外部的連接進入 I/O 世界和其他內存。這就是片上互連在分區中發揮作用的方式。在軟件層面,他們能夠讓它看起來像一個巨大的處理器,而不是兩個分散的處理器,這讓他們能夠根據他們發布的和之前可用的性能獲得出色的性能基準。”
這也可以稱為橫截面帶寬和能耗。Eliyan 首席戰略和業務官 Patrick Soheili 指出:“在芯片內部進行連接總是更有效率,但如果沒有空間,你就別無選擇。因此,一個決定由此做出。另一個決定是一個芯片需要以多快的速度與另一個芯片通信,即橫截面帶寬需要是多少,以及我是否可以將它們彼此分開而不是放在單片芯片中。這兩個是軟件分區,確保整個系統將 SIP 視為一個整體(這始終是其中的關鍵部分),與芯片策略無關,只是確保所有東西作為一個子系統協同工作。”
Chiplet 為互連實現帶來了什么
Chiplet 系統的出現帶來了創建可用于生產的實現的新挑戰。“這需要一種新的方式來測試 D2D 接口以適應更高的數據速率,并允許測試和篩選出好的芯片,”Alphawave 的 Giuliano 說。“我們如何在晶圓或封裝上測試 D2D 互連物理層?我們是否知道 HBM 學習是否適用于此,或者我們是否需要做不同的事情?我們現在討論的是更高數據速率的鏈路,即 32Gbps,以及每引腳 64Gbps,它們連接著越來越多的 chiplet。通常,這是通過晶圓級不可能實現的高級凸塊間距來實現的。在我們的 PHY 內部設計測試級結構至關重要,這樣可以深入了解硅片的健康狀況以及關鍵時序參數隨時間變化的可觀察性。”
Alphawave 實施了先進的測試和調試方法,使其工程團隊能夠使用內部環回和寄存器訪問來測試鏈路。該公司還與 OSAT 合作實施結構測試,以確保對 D2D 結構的全面測試覆蓋。
另一個新問題源于集成來自不同供應商和實現的 D2D 互連和芯片組,這些芯片組需要互操作。“今天,我們部署的大多數系統都只有一個供應商實現,但我們正在與生態系統合作伙伴和客戶合作,為多供應商互操作性鋪平道路。我們已經創建了測試平臺并發布了芯片組,可以與其他方一起使用,以完成電氣互操作性測試和協議測試,”Giuliano 指出。
Arteris 的 Stevens 表示,系統發現是芯片中需要標準化的另一個領域。“要創建一個芯片生態系統,他們需要能夠‘發現’現有的東西,并協調形成一個系統,如果要求支持真正的芯片混合搭配。如今,芯片是作為一個單一系統設計和驗證的,但缺乏如何將它們一起使用的靈活性。驗證 IP 也是芯片的關鍵。為了實現互操作性,必須有業界信賴的可信‘黃金’驗證 IP。這使得芯片設計能夠向 VIP 驗證,而不需要向其他芯片驗證。”
還必須從互連的角度來看待整體內存映射。“內存映射是指對特定地址的訪問如何映射到系統中的內存控制器,”史蒂文斯說。“在芯片系統中,內存訪問可以跨芯片進行。這種映射可能會影響性能。細粒度映射會將訪問均勻分布在芯片之間,但由于遠程芯片的延遲較長,可能會導致性能問題。粗粒度映射可能更好,但訪問可能不會均勻分布,因此需要做出一個棘手的權衡。系統架構師應該對此進行建模,但另一種方法是使此啟動時間可配置,以便在硅片啟動后進行試驗。”
對于芯片架構,另一個重要的考慮因素是,沒有一種 D2D 互連能夠適合所有的芯片分區和架構。“了解目標 KPI 以選擇正確的 D2D 鏈路和芯片分區配置至關重要,”Giuliano 指出。“我們利用我們的芯片定制硅片專業知識和 D2D 互連領導地位,指導我們的客戶正確劃分系統,并在實現最佳 TCO 和上市時間之間找到最佳折衷方案。一個重要的例子是封裝技術,以及該配置所需的 D2D 配置。選擇需要涉及芯片互連的所有層。然后,電氣 PHY 層和封裝類型被移動到特定于域架構的芯片互連協議和分區。”
圖 1:Alphawave 的多標準 I/O 小芯片。來源:Alphawave Semi
隨著對芯片互連的了解不斷加深,最大的問題是多久才能出現商業芯片市場。雖然英特爾、AMD、NVIDIA 和蘋果等公司已經在使用芯片,但這些芯片是專門為他們自己的設備設計的。擁有基本上即插即用的商用芯片仍然遙遙無期。
Synopsys技術產品管理高級總監 Tim Kogel 表示:“我們將看到的下一個階段是,當前的參與者圍繞其 IP 開放生態系統,允許使用配套的 chiplet。這將需要一整套架構方法和協作工具。尤其是在汽車行業,這是一個非常重要的趨勢。歐洲有 imec 汽車 chiplet 計劃 (ACP)。日本有汽車高級 SoC 研究 (ASRA) 聯盟。有架構協作和物理方面的工作組。我們如何在信號級別使其工作?我們如何在宏觀架構方面使其工作以將事物組合在一起?尤其是在汽車行業,有這種巨大的推動力,因為他們清楚地看到了使用 chiplet 概念來實現這種可擴展架構的好處。他們希望通過簡單地說‘好的,這是一個 chiplet,這是兩個,這是四個 chiplet’,從低端汽車轉向中端汽車再到高端汽車。他們看到了巨大的經濟規模,他們將通過 chiplet 路徑來實現這一點。”
然而,在此之前,仍有許多工作要做。作為一個行業,我們仍在學習芯片和標準,它們都在不同的領域發揮作用,”是德科技信號完整性應用科學家兼高速數字應用產品經理 Chun-Ting “Tim” Wang Lee 表示。 “行業面臨的最大挑戰是專注于確保它們能夠協同工作,因為總有一天它們必須互連并協同工作。”