AMD Next Horizon Gaming Tech Day揚眉吐氣Zen 2微架構深度解析,同場加映Matisse封裝技術

AMD Next Horizon Gaming Tech Day:揚眉吐氣 Zen 2 微架構深度解析,同場加映 Matisse 封裝技術

透過 Zen 2 微架構改進和 TSMC 7nm 製程,AMD 第三代 Ryzen 桌上型處理器已有競爭對手 Coffee Lake 微架構的單執行緒 IPC 性能,再加上 I/O 晶粒與 CCD 運算晶粒分離的設計,提供多樣化、高彈性的實體核心數量配置,最高甚至可提供 Ryzen 9 3950X 十六核心規格。

6 核心至 16 核心任選

自從 AMD 宣布推出 Zen 微架構 Ryzen 系列處理器,就可以看出 AMD 在製造方面選擇與 Intel 分岔的道路,Intel 至今依舊選擇所有核心擺放在同一晶粒,同時製造、生產(超過實體 28 核心產品採用雙晶粒封裝)。由於 Intel 處理器產品絕大多數依舊掌握在自己的晶圓廠,因此採用此設計合情合理。

另一方面,AMD 早在 Zen 微架構產品推出之前,將晶圓廠切割出去,Zen 微架構也採用小核心晶粒透過拼湊封裝方式,推出超過實體八核心的產品線。此種作法的主要能夠降低生產成本,又能夠因應市場需求快速調整核心數量。

Zen 2 微架構實作,AMD 選擇僅提升運算晶粒 CCD 製程至 TSMC 7nm,搭配使用的 I/O 晶粒則採用 14nm(12nm?詳情後述),每個 CCD 包含 2 個 CCX 以及用來與 I/O 晶粒相互連結的 Infinity Fabric,I/O 晶粒則根據不同平台的需求,進行差異化設計。

除了代號 Rome 下一世代伺服器 EPYC 處理器,位居主流消費市場的第三代 Ryzen 桌上型處理器系列同樣採用 Zen 2 微架構,以及 CCD 運算晶粒和 I/O 晶粒分離式的設計,目前預計推出單 CCD 實體六核心 Ryzen 5 3600,直至雙 CCD 實體十六核心 Ryzen 9 3950X 共 5 款不同等級產品。

AMD 主流市場採用 Zen 2 微架構的第三代 Ryzen 桌上型處理器系列產品將從 Ryzen 5 3600 實體六核心起跳,直到最高 Ryzen 9 3950X 實體十六核心。入門款式則考量使用者不一定會另外購買獨立顯示卡為訴求,以升級至 Zen+ 微架構的 Ryzen 5 3400G 和 Ryzen 3 3200G 填補空缺。

Zen 2 補完 Zen/Zen+

整體而言,Zen 2 微架構主要的進步之處在於填補先前 Zen/Zen+ 微架構的不足,因此要見到 Zen 微架構對比工程機械微架構那般的效能暴漲,坦白說是讀者們多慮了。不過 AMD 依舊創造出 Zen 2 IPC 成長 15% 成績,過去讓人在意的 AVX 256bit 浮點運算效能和記憶體存取延遲,也紛紛在 Zen 2 微架構獲得改善。

「Zen」微架構名稱由資深研究員/領銜架構師 Michael Clark 親自挑選,代表著處理器微架構在多方競爭下的平衡--效能,功耗、電晶體數量、指令集……等,這次 AMD Next Horizon Gaming Tech Day 同樣由他主述 Zen 2 微架構改進。

另一方面,堆疊核心數量則是 AMD 從 Zen 微架構處理器產品以來的強項,第一代產品就逼得 Intel 不得不放棄祖傳許多代的 Core i7 實體四核心設計,推出 Core i7-8700K,接著甚至下放 Core i9 品牌等級至主流消費市場,推出實體八核心 Core i9-9900K,今年下半年甚至還有全數八核心渦輪加速頻率至 5.0GHz 的 Core i9-9900KS。

預測更準、單元更多、道路更寬

由於 Zen/Zen+ 架構採用的 GlobalFoundries 14nm/12nm 製程,其電晶體密度表現依舊不敵 Intel 14nm,因此 AMD 在此世代的微架構設計不得不採用一些折衷方案,其中最為明顯的是 256bit 浮點運算,雖然支援 AVX2 指令集,但卻需要拆成 2 個 128bit 指令,因為浮點運算單元寬度就只有 128bit。(註:AMD 選擇的 GlobalFoundries 12nm 為 14nm 最佳化版本,鰭片式電晶體長得更高、電氣特性更為優秀,但無法在同一面積之內塞入更多電晶體。)

Zen 2 微架構 CCD 改交由台灣 TSMC 7nm 製程製造,一舉追過 Intel 14nm 製程,可以放入許多需要耗費大量電晶體的功能;根據官方數據,轉進 7nm 製程可於相同面積之內塞入 2 倍數量電晶體,能夠以一半的耗電量提供相同效能,或是在相同功耗之下提供 1.25 倍以上效能。

AMD 在去年 11 月所舉辦的 Next Horizon 活動當中,揭曉 7nm 製程比對手 14nm 製程在每瓦效能表現上更佳。

Zen 2 微架構具體而言,前端調整分支預測器至 TAGE 形式、L1 快取調整為 32KB 容量 8-way、µOp 微運算快取增至 4096 個條目,連帶 L3 快取增為 Zen/Zen+ 為架構的 2 倍。整數處理單元的重命名暫存器為 180 個、AGU 則為 3 個、每個時脈週期 2 個載入與 1 個儲存工作寬度增為 32Byte,浮點數處理器寬度增至 256bit。

由 AMD 釋出的圖表可得知,L1 分支預測依舊使用 Hashed Perceptron 方式,但是 L2 則進化成 TAGE,至於各階層的 Branch Target Buffer 條目數量均有上升,L0 BTB 從 8 個提升至 16 個、L1 BTB 從 256 個提升至 512 個、L2 BTB 則從 4096 個變為 7168 個,此外 Indirect Target Array 也從 512 個條目翻倍成 1024 個。上述 Zen 2 微架構前端改進,可降低約 30% 分支預測錯誤率。

L1 指令快取變成 32KB,容量少見地縮水,但快取映射組關聯性從 4-way 變成 8-way,變成與 L1 資料快取相同,AMD 表示此舉能夠提升相關連性,並增加預取以及使用效率。

解碼部分最大的變化為 µOp 微運算快取,從原先 2048 個條目增加至 4096 個條目,其餘解碼數量倒是沒有什麼變化,解碼器依舊可以同步解碼 4 條指令並輸出,µOp 微運算快取則可輸出 8 條 macro-OP,AMD 表示 µOp 微運算快取輸出將有更佳的指令融合效果,因此整體而言可增加有效指令輸出量,同一時脈週期最高依然可以配發 6 個整數微運算或是最高配發 4 個浮點數微運算。

整數運算執行區塊,內部仍然使用 4 個 ALU,但前方的 ALU 排程器條目數量從每個 ALU 分配到 14 個條目,變成 16 個條目。AGU 則增加 1 個來到 3 個,前方 AGU 排程器已不再使用每個 AGU 對應 14 個條目的設計,而是所有 3 個 AGU 共享單個排程器 28 個條目。

其餘整數運算共享部分,重命名暫存器條目從 168 個提升至 180 個,且由於 AGU 增加 1 個的關係,每時脈週期可 issue 的指令也從 6 個提升至 7 個,Reorder Buffer 重排序緩衝區條目則是從 192 個增至 224 個。AMD 也在此提升雙執行緒指令排程時的 ALU/AGU 使用公平性,並標記 ALU 令牌以便管理 spinlock 狀態。

這次 Zen 2 微架構浮點運算處理的首要任務為加強 256bit 寬度執行效率,因此所有的變更均圍繞此項目標,不僅是 2 個乘法器和 2 個加法器已可在單一指令完成 256bit,身旁傳輸的管線也為 256bit 而拓寬變成 2 x 256bit。至於能不能夠如同 Intel 部分微架構可將 2 個 256bit 融合成能夠執行 AVX-512,AMD 沒說意即應不具備此機制。

浮點運算處理可說是 Zen 2 微架構大力提升的對象,從 2 個 128bit 寬度乘法器/加法器變成 2 個 256bit 寬度,週遭線路也因此拓寬。

載入與儲存區塊,同樣因為要支撐更大的吞吐量而拓寬道路,每個時脈週期依舊能夠提供 2 個載入與 1 個儲存動作,載入維持 72 個亂序佇列,儲存佇列從 44 個抬升至 48 個,每個載入或是儲存動作的頻寬也從 16Byte 提升至 32Byte。L2 資料 TLB 如同先前所述,從 1532 個條目增加至 2048 個條目。

其餘部分則沒有太大的變化,AMD 僅公布更快的存取速度,更低的延遲等文字敘述;L3 快取階層不變,依然為 Victim Cache 設計,從 L2 快取排除的指令或是資料會被填入 L3 快取,以待未來再次使用時無須從記憶體當中載入,而 L3 快取容量於 Zen 2 微架構容量加倍,單一實體核心 L3 快取從 8MB 拓展成 16MB。

各階快取之間的地位關係在 Zen 2 微架構當中沒有變化,L3 依舊是 Victim Cache 快取設計,被 L2 排除的指令或是資料將填入此處,每個實體核心的 L3 快取容量加倍至 16MB。

Zen 2 微架構同時導入 3 個新指令,分別為 CLWB、WBNOINVD、QOS,前 2 者分別可以將處理器核心內部修改過的髒資料回寫,而無須將快取內部資料全數清空,QOS 則是提供快取與記憶體控制,提供更多的快取資源與記憶體頻寬給需要的執行緒。

Matisse 多晶片封裝

原本 Zen/Zen+ 微架構僅於伺服器 EPYC 和 HEDT 市場 Ryzen Threadripper 採用多晶片封裝,主流市場維持單晶片 SoC 設計,但 AMD 指出摩爾定律越來越難達成、單一晶片設計不容易整合邏輯電路、類比介面、記憶體迴路等問題,遂在 Zen 2 微架構產品導入 chiplet 設計。

第三代 Ryzen 桌上型處理器系列,處理器封裝內部改採 1 個 CCD 運算晶粒加上 1 個 I/O 晶粒,或是 2 個 CCD 運算晶粒加上 1 個 I/O 晶粒的構成方式,CCD 內部僅有 2 個實體四核心 CCX 和 Infinity Fabric,其餘 I/O 部分如記憶體控制器、PCIe、SATA、USB 等均移至 I/O 晶粒身上。

值得注意的是,CCD 內部 2 個 CCX 之間並未留有 Infinity Fabric 相互交換資料,而是必須透過與 I/O 晶粒相互連結的 die-to-die Infinity Fabric 進行溝通。筆者會後額外向 Michael Clark 求證確認,Michael Clark 表示如此選擇是為了讓核心拓樸不複雜,每個 CCX 和 CCX 之間的頻寬與延遲均相等。AMD 也因應此種設計,導入 Early Page Active 功能降低記憶體延遲,以及 Early Probe Launch 加強快取與快取之間的傳輸速度。

因應 Matisse 將 CCD 與 I/O 晶粒分離的設計,諸如 L3 快取倍增、Early Page Active、Early Probe Launch 都是 AMD 所提出的解決方案。

封裝錫球部分,採用 12nm 製程製造的 I/O 晶粒(Tech Day 當中 12nm、14nm 均有提及,確切的製程有待正式上市時給予標準答案)可以使用直徑 150μm,但是 7nm CCD 卻需要 120μm,因此封裝基板錫球下方額外增加銅枕結構,方便控制上方錫球粒徑。

透過增加銅枕結構,不但能夠確保錫球粒徑在可接受的範圍之內,更因銅枕些微抬升錫球高度,沒有降低錫球大小之後,封裝高度連帶下降的問題,這對於單一封裝內部包含 2 種 7nm 和 12nm 製程晶粒的 Matisse 相當重要,維持封裝後的平整性。

chiplet、PCIe 4.0、記憶體、AM4 相容,這些都是 Matisse 封裝基板材料與 12 層電路設計須考量的重點。

談到記憶體頻率,這次第三代 Ryzen 桌上型處理器系列記憶體控制器頻率 uclk 和 Infinity Fabric 頻率 fclk 不一定是 1:1,當記憶體等效頻率超過 DDR4-3733,達 DDR4-3866 以上,則改採 2:1 比例,有助於玩家超頻記憶體。須注意的是頻率越高,不代表記憶體效能越好(因為 Infinity Fabric 頻率反而降低了), DDR4-2667CL16~DDR4-4400CL18 存取延遲為 DDR4-3733CL17 最佳,官方表示建議選購 DDR4-3600CL16 模組,理由跟筆者近期提出的觀念相同,此區間擁有較佳的價格與效能平衡性。

第三代 Ryzen 桌上型處理器系列 uclk 和 fclk 縱然可以使用 2:1 頻率比例,增加記憶體超頻性,但效能卻不一定會跟隨時脈連帶成長。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏