您現在的位置是:首頁 > 攝影首頁攝影

第4代Xeon可擴充套件處理器內部結構剖析

由 半導體產業縱橫 發表于 攝影2023-01-15
簡介順便說一句,很可能受此Optane Persistent Memory(圖十二)影響的是CXL記憶體的支援

看電視怎麼弄小螢幕

美國時間2023年1月10日,英特爾舉行了第四代至強可擴充套件處理器和至強Max的釋出會。在第4代Xeon可擴充套件處理器/Xeon Max中,陣容有3種。

lMCC:最多32個核心

lXCC:具有多達15個核心晶片x4的MCM

lHBM:最大14核晶片x4+ HBM2e x4 MCM

32核以下的產品都是MCC,34核以上的都是XCC或者HBM。Xeon Max(Xeon 9462)低端嚴格來說是32核,但由於MCC中沒有帶HBMI/F的die,所以這個是在HBM中實現的,但其餘都是MCC。從產品陣容來看,32核以下被視為Xeon Gold/Silver/Bronze(Xeon Max即使是32核也被視為Xeon Max),因此Gold/Silver/Bronze的區別是MCC,Platinum是XCC,Max可以說HBM的思路更符合實際。

順帶一提,這次的MCC die在presentation或者preliminary briefing上都沒有公開,只展示了XCC和HBM(圖一)。

第4代Xeon可擴充套件處理器內部結構剖析

圖一:從左邊開始,XCC、HBM和GPU Max Ponte Vecchio。可以看到Ponte Vecchio的高度和Xeon一樣(雖然寬度比Xeon寬)

第4代Xeon可擴充套件處理器內部結構剖析

圖二:四塊tile之間似乎有1mm左右的寬度。右下角的小die據說是PMIC的FPGA

第4代Xeon可擴充套件處理器內部結構剖析

圖三:中間的旁路電容很小

一方面,XCC具有與前面解釋的相同的結構(圖二、圖三)。另一方面,對於HBM,這與堆疊HBM2e有關,所以在封裝的兩邊都加了耳朵,可以看到額外的旁路電容和FPGA都被驅動出來了(圖四、圖五)。

第4代Xeon可擴充套件處理器內部結構剖析

圖四:驅動HBM2e的旁路電容數量是否明顯增加

第4代Xeon可擴充套件處理器內部結構剖析

圖五:這也是LGA4677

第4代Xeon可擴充套件處理器內部結構剖析

圖六:左邊是XCC,右邊是HBM。插座在耳朵位置是開放的

接下來是XCC/HBM的結構,但它超出了我的想象。至於XCC或HBM,此前曾宣佈4個Tiles與EMIB互連,但2021年Hot Chips披露了10個EMIB。針對這一點,筆者出現了“誤會”,下面是本文圖三、圖四的推定圖,說是UPI互聯,實際不太一樣。

這次放出的幻燈片(圖七),細節比較模糊,放大了也看不清楚,所以筆者試著畫了一張。a圖是圖七中XCC左上角的放大圖。

第4代Xeon可擴充套件處理器內部結構剖析

圖七

第4代Xeon可擴充套件處理器內部結構剖析

a圖 XCC左上放大圖

這是原始至強可擴充套件處理器Skylake-SP的內部結構。它是一種製作網狀結構的機構,使36個6×6的塊被3個垂直和6個水平的Ring Buse連結。Sapphire Rapids也是如此,XCC的一個Tile由4x5 Block組成,如圖1所示。水平方向穿過這20個Block的五對Ring Bus進入(不過看幻燈片,連線最上面I/F的Ring Bus好像和其他的有點不一樣,可能有兩對這裡不是一個,但細節未知,因為圖表已摺疊)。

另一方面,兩對Ring Buse可以垂直放置。當你將所有這四個連線在一起時會發生什麼?b圖顯示了這一點。

第4代Xeon可擴充套件處理器內部結構剖析

b圖 XCC4塊由EMIB連線

簡而言之,透過EMIB直接連線4個Tile的vertical/horizontal Ring Buses,內部有80個8×10的Block,即4對vertical/10對horizontal Ring Buse。邏輯上巨大的Monolithic Die配置得到了完全的。

順便說一句,在HBM的情況下,從這個XCC die上去掉了一組Core/LCC,把HBMI/F放在那裡(DDR5I/F和HBMI/F分別提供。這個訊息是英特爾CEO在2021年的Hot Chips上解釋的)。在Photo07中,HBM被畫成好像每個Tile有15個核心,但實際上HBM是56個核心(即每個Tile有14個核心)即使是Xeon Max9480/9470的最大配置,這是XCC的數字。

MCC模具尺寸

這次公開了一張XCC用的wafer(圖八),不過是縱橫15的300mm wafer,tile的尺寸大約是20mmx20mm。之前的資料說是400平方毫米,不過再一次確認,這個數字幾乎是正確的。

第4代Xeon可擴充套件處理器內部結構剖析

圖八:可能英特爾不想被仔細分析,因為圖片有角度會丟失很多細節

第4代Xeon可擴充套件處理器內部結構剖析

圖九:筆者強制縱橫比為1:1,並提取了中心失真相對較小的9個圖塊

圖九是晶圓的放大圖。我添加了紅色/黃色/藍色,但我認為這個比例可能沒問題。假設此假設,Core+LCC(+內部環形匯流排)的尺寸在4x4配置中為13。6mmx15。6mm。換句話說,一個塊的大小大約為3。4毫米x3。9毫米,相當大,為13。26平方毫米。介面的尺寸是相同的。因此,圖1中顯示的20個塊的尺寸約為17。0mmx15。5mm。剩下的外圍部分是用於EMIB連線的加速器或I/F。這個外圍部分的總面積為136。5平方毫米,當然足夠安裝加速器了。

現在,我想從這裡估計MCC的裸片尺寸。如圖07所示,MCC core由7×7 49 Block組成。在這裡應用當前尺寸,它是27。3毫米x23。8毫米,這是一個計算結果,用49個塊幾乎達到650平方毫米。假設這裡分配給Accelerator的面積,比如100平方毫米左右,那麼計算出整個Tile的總面積達到750平方毫米。這次公佈的最便宜的產品是8核Xeon Bronze 3408U,RCP(推薦客戶價格)僅為415美元,但這是一個如果低於成本價就讓我有點擔心的裸片尺寸。在今天宣佈的52款產品中,只有四款的RCP價格低於1,000美元,因此總體而言這可能不是什麼大問題。

在這種情況下,到底是XCC,總面積1600平方,Tile只有400平方,還是750平方,真的是Monolithic的巨型MCC,誰的成品率更高呢?筆者有點擔心。

架構和CXL

對了,說到Sapphire Rapids本身,CPU Core就是和Alder Lake一樣的Golden Cove基地。Golden Cove本身不是的是L2/L3容量不同(圖十),支援AMX。

第4代Xeon可擴充套件處理器內部結構剖析

圖十:Alder Lake有1。25MB/Core的L2和3MB的L3

AMX指令在CPU端不被Decoder解釋,在AMX端進行處理,所以Decoder部分沒有接觸,不同的是在CPUID中增加了一個表示AMX支援的bit。

Golden Cove的核心本身的效能之前已經在這裡評估過,雖然工作頻率有差異,但基本特性沒有改變。關於記憶體控制器,正如這裡提到的,很明顯Optane Persistent Memory 300系列將與第4代Xeon可擴充套件處理器(圖十一)一起推出。

第4代Xeon可擴充套件處理器內部結構剖析

圖十一:DDR5-4400似乎是使用Optane Persistent Memory時的上限。但是,由於每個通道最多可以安裝2個DIMM,因此總共可以安裝16個卡/插槽。

Optane Persistent Memory的最大容量是512MB,所以如果你認為你可以瞄準16TB總共32張卡和2個插槽,它可能是現有的Optane限制為每個插槽4TB,總共6TB2個插槽Socket configuration。它似乎希望保持軟體(主要是作業系統和中介軟體)與Persistent Memory 100/200系列的相容性。

順便說一句,很可能受此Optane Persistent Memory(圖十二)影響的是CXL記憶體的支援。

第4代Xeon可擴充套件處理器內部結構剖析

圖十二:由於目前釋出的CXL Memory大部分都是x8,那麼PCIe 5。0的80Lane中是否有32Lane用於CXL,剩下的48Lane用於Network和NVMe SSD並不知曉。

這一次,雖然官方宣佈支援CXL 1。1的Type 1和Type 2,但不支援Type 3。因此,在支援型別2時不支援型別3是沒有技術原因的。當我直接詢問這個問題時,我得到的答覆是“技術上(型別3)有效,但我們沒有平臺(簡而言之,CXL記憶體裝置)來驗證它,所以我們將其從支援中刪除。”

第4代Xeon可擴充套件處理器內部結構剖析

換句話說,如果你插入型別3,它可能會起作用。另外,三星已經在2022年5月釋出了產品,而SK 海力士和美光也釋出了產品和評估樣品。也許這將在下一代Emerald Rapid中得到正式支援CXL Memory。

*宣告:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯絡後臺。