来源:SemiAnalysis
原文链接:https://newsletter.semianalysis.com/p/steel-smic-n3-teardown
近四年前,我们曾发布过一篇文章,指出中芯国际(SMIC)已经开始量产 7 nm(N+1)芯片。如今,中芯国际正在华为麒麟 9030 上量产其第三代 7 nm 工艺(N+3),其最小金属节距为 32.5 nm,确实比英特尔最新 Panther Lake CPU 在 18A 上使用的 36 nm 最小金属节距更紧约 10%。这个标题本身是真的,但它只挑了一个不完整的指标。N+3 通过激进的 DUV 多重图案化(DUV multi-patterning)和设计-工艺协同优化(DTCO)实现了接近 TSMC N6 的密度,但代价是更高的复杂度、更低的效率和更难的工艺控制。我们在逆向工程和拆解中发现了这一点,以及更多内容,包括中芯 N+3 工艺技术、华为封装、内存、架构等。
过去一年半里,SemiAnalysis 一直在俄勒冈建设一座世界级拆解实验室,能够分析全球最先进、最重要的芯片。我们已经通过先进数据中心芯片拆解实现了收入,包括最近对某个重要 TSMC 客户的 COUPE CPO 光引擎 + EIC 3D 堆叠的逆向工程。这是 SemiAnalysis 拆解工程与评估实验室(STEEL,Teardown Engineering & Evaluation Lab)首次公开发布的报告。实验室正在快速扩张,我们也很高兴正式公布它。对 TechInsights 来说,这个时点有点尴尬,因为它由私募股权持有,目前正在出售,而在过去几十年里几乎没有遇到真正可信的竞争。这也导致 TechInsights 在资本开支上的投入不足。SemiAnalysis 的营收已经超过 TechInsights,尽管我们没有风险投资或私募股权支持,而且公司成立才 6 年。因为我们没有外部投资者,并且由创始人主导,所以我们行动更快、建设更快,而且可以定期免费发布客户芯片拆解报告,同时把重点放在数据中心业务上。
下面是我们实验室的第一张公开图片,华为海思麒麟 9030 Pro SoC:
华为海思麒麟 9030 晶粒标注。来源:SemiAnalysis
本报告将详细介绍我们对麒麟 9030 的拆解,以及我们对中芯 N+3 工艺的发现。作为对比,我们还会展示联发科 Helio G99 的拆解,它采用的是 TSMC N6。通过这个对比,我们可以观察出口管制的影响:SMIC N+3 和 TSMC N6 是可比较的工艺节点,但一个受到严重出口管制,另一个则可以自由使用西方最先进的设备。这里既能看到中国的进步,也能看到中国面临的约束。SMIC N+3 的逻辑密度已经达到 TSMC N6 级别,但它依赖更激进的 DUV 多重图案化,因此在工艺成熟度和成本上都不如 N6。
麒麟 9030 Pro 的性能大致相当于三年前的安卓旗舰,但远落后于苹果、高通、联发科和三星当前的旗舰 SoC。效率差距则更大。出口管制并没有阻止华为和中芯继续出货先进芯片,但它们迫使二者走上了不同的道路。没有 EUV 之后,中芯更加依赖 DUV 多重图案化、DTCO,以及越来越复杂的集成方式。后续路线图会继续通过更紧的设计规则和背面供电推进,但每一步都会增加成本和工艺风险。华为的 τ 缩放和 LogicFolding 则展示了另一条路:通过堆叠有源逻辑,并借助先进封装和系统-工艺协同优化(STCO)恢复密度。
晶粒图与版图
要理解麒麟 9030,首先要了解华为 SoC 的历史。海思是华为的芯片设计部门,负责麒麟手机 SoC、鲲鹏服务器 CPU、昇腾 AI 加速器,以及交换机/路由器网络芯片。在出口管制之前,华为是 TSMC 最大的客户之一,也是 TSMC 首个 EUV 节点 N7+ 的唯一客户,并与苹果一起成为首批 N5 客户之一。这个局面在 2020 年底结束。之后,华为在旗舰手机上改用高通 SoC,但受出口管制限制,只能使用 4G 版本。
2023 年底,华为回到自研芯片路线,推出麒麟 9000s,作为麒麟 9000 的后继产品,但它并不是基于 TSMC N5,而是采用了 SMIC N+2。随后几年里,华为又在同样的 N+2 工艺上发布了麒麟 9010 和 9020。这些芯片都使用华为自研的 TaiShan CPU 核心和 Maleoon GPU。我们自己没有拆解过麒麟 9020,因此前代晶粒图来自 Kurnal。晶粒图显示了华为如何分配硅面积:各功能模块的位置,以及它们与前代相比的面积变化。
海思麒麟 9020(左)与麒麟 9030(右)晶粒标注。来源:Kurnal、SemiAnalysis
先快速了解晶粒上的主要模块。
麒麟 9030 Pro 与麒麟 9020 模块对照。来源:SemiAnalysis
总晶粒面积几乎相同,但 9030 对这块面积的利用更激进。更高密度的工艺让华为能在同样的占地里塞进额外的中间 CPU 核心、更多 GPU 和 NPU 核心,以及更大的缓存。
麒麟 9030 Pro 与麒麟 9020 版图分析。来源:Kurnal、SemiAnalysis
相比之下,Helio G99 是一颗面向低成本手机的更小型 SoC,而不是旗舰芯片。麒麟 9030 大约 140 mm²,G99 只有约 29 mm²,面积大约只有前者的五分之一。不过,从工艺技术角度看,TSMC N6 可以作为分析 SMIC 的直接参照基线。
联发科 Helio G99 晶粒标注。来源:SemiAnalysis
架构与 PPA
麒麟 9030 是一次演进式更新,而不是从零开始的新设计。CPU、GPU 和 NPU 核心都沿用了 9020 的家族,提升主要来自三个杠杆:SMIC N+2 到 N+3 的工艺进步、DTCO 与版图优化,以及增量式微架构改进。面积层面上,前两项最容易看出来,而 9030 在这方面做得不错。真正更难的是性能和效率。华为的设计表现比其工艺节点本身更好,但芯片仍然落后,一方面是因为 N+3 本身落后于最先进节点,另一方面是因为这些核心虽然成熟,但仍比最新设计落后几代。
麒麟 9020 TaiShan V123(左)与麒麟 9030 TaiShan Prime(右)核心。来源:Kurnal、SemiAnalysis
新的 Prime 核心只是一次增量更新。主要变化是频率提高 10%,从 2.5 GHz 升到 2.75 GHz,L2 缓存也从 1 MiB 翻倍到 2 MiB。尽管缓存更大,核心面积仍缩小了 7.6%。如果不算私有 L2 缓存,核心面积则缩小了 21%。对于一次增量节点升级来说,这个幅度非常大。
麒麟 9020 TaiShan New V120(左)与麒麟 9030 TaiShan Middle(右)核心。来源:Kurnal、SemiAnalysis
与麒麟 9020 中的 TaiShan New V120 核心相比,麒麟 9030 的中核在架构上几乎没有变化,但单核面积仍缩小了约 22%。其中大部分来自 N+2 到 N+3 的工艺迁移,其余可能来自版图布局。视觉上最明显的变化是中核从 3 个增加到了 4 个。另外,大核簇共享的 L3 缓存也增加了 20%。这有助于提升多核性能,而且面积代价并不大。
麒麟 9020(左)与麒麟 9030(右)大 CPU 簇。来源:Kurnal、SemiAnalysis
即便每个核心都变小了,大 CPU 簇的总面积几乎没有变化。节省下来的面积被拿去放入了一个额外的中核和更大的缓存。
麒麟 9020(左)与麒麟 9030(右)TaiShan Tiny 核心。来源:Kurnal、SemiAnalysis
Tiny 核心的缩小幅度比 Prime 核心小,也比中核小。很可能是因为在小核心上,固定开销占比更大。仅凭晶粒图,我们无法确认是否存在架构变化,但下面展示的每周期和能效提升说明,改进绝不只是工艺缩放和版图优化。面积缩小也被共享 L2 缓存从 2 MiB 翻倍到 4 MiB 所抵消,因此整个 Tiny CPU 簇的面积反而略有增加。
从晶粒图看,面积最容易观察,但这只是 PPA 的一部分。对现代逻辑来说,功耗和性能同样重要,而且往往更重要。自从 Dennard 缩放在 2000 年代中期失效后,电压和频率就再也没有跟晶体管尺寸同步缩放,所以每一代工艺都必须更努力地争取性能和能效提升。
麒麟 9030 Pro CPU 核心性能对比。来源:Littertree66、SimpleTech、David Huang、SemiAnalysis
最鲜明的对比并不是麒麟 9020 对麒麟 9030 Pro,而是苹果的能效核远胜华为的 Prime 核。苹果的低功耗核心在只消耗 1 W 的情况下,整数性能还高出 20%,而华为 Prime 核则要消耗 4.5 W。N+3 的确追平了 TSMC N6,但 N6 本身已经是几代以前的工艺。苹果和高通使用的是 N4 和 N3P,晶体管密度更高,电压-频率曲线也更好,因此能在同样面积里放入更多晶体管,并以更高的每瓦性能工作。
9030 自己的核心也确实进步了。中核和 Tiny 核的每周期整数性能分别比 9020 提升了 17% 和 14%;浮点性能方面,中核基本持平,Tiny 核提升了 11%。Tiny 核的改善最干净,性能上升、功耗下降,整数能效提升 45%,浮点能效提升 24%。中核则更复杂:整数性能上升,但功耗涨得更快,导致整数能效下降 7%;不过由于功耗降低,浮点能效提升了 16%。在相同或更低频率下的每周期提升,说明这是微架构层面的改进,而不只是缩放得更小。两颗核心都没能稳定维持标称最高频率,这说明存在热、功耗或稳定性限制。
按每周期来看,中核大致接近 Arm Cortex-A720,Tiny 核接近 Cortex-A520;绝对性能偏低,则是因为华为给它们设定的频率低得多。Prime 核按每周期大致相当于 2021 年的 Cortex-X2。苹果 2020 年的 M1 Firestorm 核仍然在每周期上高出 35%,在相近的 4.5 W 下,绝对整数性能高出 57%。当前最前沿的设计又进一步拉开差距:苹果 M5 P 核每周期高出 60%,绝对性能快 2.7 倍,Arm C1 Ultra 每周期高出 45%,绝对性能快 2 倍。能够在每周期上追平较老的高端核心,本身就是一种真正的设计成就。
华为真正无法追上的,是领先节点带来的电压-频率曲线和晶体管预算。苹果、高通等厂商可以在同样面积里投入更多晶体管,做更宽的核心、更大的缓存和更深的缓冲,同时还能以更低电压运行。华为的 LogicFolding 路线图就是应对方案之一:通过堆叠有源逻辑来恢复密度并缩短信号路径。后文还会回到这个话题。
麒麟 9020(左)与麒麟 9030(右)Maleoon GPU 计算单元。来源:Kurnal、SemiAnalysis
GPU 计算单元(CU)的变化比 CPU 核心更明显,ALU(算术逻辑单元)簇和整个 CU 的布局都更接近矩形。即便加入了光线追踪支持,一个 CU 也缩小了约 28%。
麒麟 9020 Maleoon 920(左)与麒麟 9030 Maleoon 935(右)GPU 簇。来源:Kurnal、SemiAnalysis
不过,这一缩小被 CU 数量从 4 个增加到 6 个所抵消,而且 CU 之外的面积还增加了 33%。总体来看,GPU 簇反而大了约 10%。
麒麟 9030 Pro GPU 性能对比。来源:Notebookcheck、SemiAnalysis
GPU 是华为进步最大的地方。Maleoon 935 还比不上当前旗舰,但比 920 有明显进步,已经接近前几代旗舰水平。在 3DMark 中,它在 Wild Life Extreme(WLE)上比 920 快 70%,在 Steel Nomad Light(SNL)上快 79%;在频率提高 11%、CU 数量增加 50% 的情况下,理论总提升约 67%,与 WLE 基本相符,在 SNL 上则被超越。它在 WLE 和 SNL 上都略微超过 Snapdragon 8+ Gen 1,在 WLE 上也领先于 Dimensity 9200 和 Apple A16,但与更新的芯片相比仍然差距巨大:Snapdragon 8 Elite Gen 5 和 Dimensity 9500 在 WLE 上快约 2.4–2.6 倍,在 SNL 上快约 3.2 倍。
Maleoon 935 是华为首个支持硬件加速光线追踪的 GPU;在这项能力上,它略高于 Exynos 2200,与 Apple A16 大致相当,但当前旗舰最高可快 3.7 倍。
麒麟 9020(左)与麒麟 9030(右)昇腾 NPU。来源:Kurnal、SemiAnalysis
神经处理单元(NPU)是变化最大的模块。麒麟 9020 采用的是 1 个 Lite 核 + 1 个 Tiny 核,而麒麟 9030 则变成了 1 个 Lite 核 + 2 个 Tiny 核。两种核心的版图也都有明显变化。这其实是华为 NPU 设计的一次逆转。麒麟 9000 5G 作为华为最后一代基于 TSMC N5 的旗舰芯片,使用的是 2 个 Lite 核 + 1 个 Tiny 核。后续在 SMIC N+2 上的 SoC 则缩减为 1 个 Lite 核 + 1 个 Tiny 核,显然是为了节省面积。到了麒麟 9030,华为又回到了更大的多核 NPU 簇,但新增面积被分配给了 Tiny 核,而不是 Lite 核。
我们正在深入研究市场上最先进的数据中心和 AI 硬件。若想了解接下来会有哪些内容,或委托定制拆解,请联系 sales@semianalysis.com。想加入我们、并相信自己能带来改变?欢迎查看我们的 Careers 页面。
在深入工艺堆栈之前,先把封装和内存从 SoC 本身中分离出来看更合适。
内存
麒麟 9030 的 Pro 版本搭载了 12 GB 三星 DRAM,由两组堆栈组成,每组 4 颗 die。我们识别出的芯片型号是 K4L2E165YD,这是一颗 12 Gb 的 LPDDR5X-9600 器件,制程为三星 1a 节点,即其继 1x、1y、1z 之后的第四代 10 nm 级 DRAM。1a 自 2022 年起已大规模出货,因此这是现行内存,而不是老节点库存。
我们拿到的 16 GB Pro Max 版本同时发现了长鑫(CXMT)和三星两种封装。CXMT 封装标记为 CXDD7JEDM,也是两组 4 颗 die,封装时间为 2025 年第 45 周。通过 X 射线计算机断层扫描(CT)推断出的 die 尺寸,与 CXMT G4 工艺已知的约 0.3 Gib/mm² 密度一致,大致相当于其他厂商的 1z 工艺。
麒麟 9030 Pro 中的三星 K4L2E165YD DRAM。上:局部晶粒(SEC 标记)与 4-hi 堆栈。下:两个 4-hi 堆栈的截面。来源:SemiAnalysis
封装
麒麟 9030 使用典型的一体式封装叠层(iPoP):多颗 DRAM die 组成的内存封装位于有机 RDL 中介层之上,而该中介层又位于 SoC 与封装基板之上。最终整个封装通过球栅阵列(BGA)焊球安装到 PCB 上。
麒麟 9030 iPoP 叠层。来源:SemiAnalysis
内存封装基板是一层很薄的双马来酰亚胺-三嗪(BT)层压板,承载 LPDDR5X 堆栈。有机 RDL 中介层覆盖在 SoC 上方,负责把 PoP 信号绕开晶粒并承载可能存在的假热铜柱。封装基板则是更厚的 ABF(Ajinomoto Build-up Film)堆叠,建立在 BT 核心上,把倒装芯片焊点扇出到 BGA 间距,并嵌入供电平面。整个堆栈都是有机材料,唯一的硅只有 SoC 和 LPDDR5X die;没有硅中介层。保持全有机结构可以让封装的热膨胀系数(CTE)更接近 PCB,从而减少板级翘曲,也避免了 SoC 其实并不需要的硅中介层成本。
麒麟 9030 Pro 封装,来自 Mate 80 Pro(左)和 Pro Max(右)。来源:SemiAnalysis
在 iPoP 叠层里,内存封装会通过一组焊球连接到有机 RDL 中介层。underfill 会填充这些焊球周围的空隙,增强刚性,并保护焊点免受机械应力。Pro 和 Pro Max 版本在这里有所不同,我们在付费内容中会展开。
Mate 80 Pro 去除 DRAM 后的侧视图,可见 BGA 与 underfill。来源:SemiAnalysis
工艺
晶粒图与架构告诉我们华为如何分配硅预算,工艺则告诉我们中芯能制造出什么。我们用 Helio G99 作为 TSMC N6 的工艺参考。SMIC N+3 和 TSMC N6 都是各自 7 nm 级节点的演进版本。我们采用定点 TEM 截面,分别穿过逻辑区和存储区,并从 fin-cut 与 gate-cut 两个方向成像。每张截面图的说明都会给出横向视野宽度(HFW),也就是成像区域的真实宽度。我们先从晶体管鳍片开始,再一路往上看标准单元、局部互连和 SRAM。
中芯并没有超越英特尔或 TSMC。它依靠激进的 DUV 缩放和 DTCO 达到 N6 级别的密度,但这种密度并不会转化成相当的性能和效率,原因有两个:一是它与最先进节点之间仍有代差,二是华为的核心设计本身也还不够先进。
鳍片剖面
在 FinFET 工艺里,最重要的参数之一就是鳍片剖面:单个鳍片以及电流从源极流向漏极的沟道形状。理想的鳍片应该高而窄,并且几乎垂直。更高的鳍片能增加有效沟道宽度;更窄的鳍片则能通过减薄栅极需要控制的主体来增强静电控制。但任何一项推得过头,工艺都会付出代价:驱动电流变弱、鳍片变脆、出现锥度和脚部效应,以及边缘线宽变化,最终打击良率和器件一致性。
英特尔 FinFET 架构演进。来源:Intel
英特尔 22 nm、14 nm 和 10 nm 的鳍片截面展示了 FinFET 节点是如何逐步演进的。22 nm 鳍片是第一代结构,比较短、比较宽,而且锥度明显。这样的形状限制了电流密度,也降低了栅控在鳍片高度上的一致性。到了 14 nm 和 10 nm,英特尔把鳍片做得更高更窄,同时让侧壁更垂直。与其说这是在“缩小”器件,不如说这些变化提高了每个鳍片的有效沟道宽度,并增强了静电控制。代价是,在更紧的节距下做出更高的鳍片,制造难度会大幅上升。
麒麟 9030 TaiShan Prime(左)与 Helio G99 Cortex-A55(右),鳍片剖面,fin-cut,HFW 321.4 nm。来源:SemiAnalysis
现在来比较 TSMC N6 上的 Helio G99 和 SMIC N+3 上的麒麟 9030。两者都属于同一类工艺,我们这次截面测得的 N+3 鳍片节距约为 30–32 nm,而 N6 为 34 nm。N6 的这个节距尤其有意思,因为 N7 的 HD 库通常标称 33 nm 的鳍片节距,而 N6 并不是直接缩小 pitch,而是通过 DTCO 获得密度提升。我们采样区域中的 34 nm 节距相当稳定,更适合作为对比基准,用来观察尚未继续深入研究的 SMIC N+3。
要准确判断 N+3 的鳍片图案化方案,不能只看一个核心单元。CPU 核心显示出约 32 nm 的高密度节距,而 N-P 鳍片对之间的节距则在 78 nm 和 88 nm 之间交替。仅从逻辑区看,它或许符合 120 nm 和 110 nm 的双节距 mandrel,但这是一个复杂且少见的方法。把 CPU 核心序列和更复杂的 8T SRAM 一起看,就能更有把握地反推图案化步骤。
SMIC N+3 的鳍片图案化集成,基于 CPU 核心与 8T SRAM 鳍片图案。来源:SemiAnalysis
逻辑和 SRAM 都应该共享同一底层网格,因此如果采用单一 CD mandrel 光刻图案并使用 128 nm 节距,再经过 SAQP(自对准四重图案化),就会得到全芯片范围约 32 nm 的网格(128 nm/4),这也支持了我们在逻辑和 SRAM 单元中看到的节距序列。
在采样截面里,N+3 的鳍片比 N6 更高、更窄、长宽比更高。我们测得 N+3 的鳍片长宽比约为 9.5:1,而 N6 为 7.8:1。N+3 的顶部圆角也更小,估计半径约 2 nm,而 N6 为 2.8 nm。即便鳍片宽度不同,把顶部圆角与鳍片宽度的比值拿来比较,结论也是一致的:N+3 为 0.37,N6 为 0.44。从几何意义上说,数值越低越好;一个完美矩形的鳍片就不会有顶部圆角损失。
这些都是用少量截面测得的个位数纳米特征,仍然带有采样误差,但方向很明确:N+3 的鳍片剖面比 N6 更激进。
标准单元与本地互连
标准单元高度决定了逻辑库的许多基本权衡。我们测得 N+3 的标准单元高度为 198 nm,而 N6 为 210 nm。换句话说,N+3 的单元高度比 N6 小约 6%。这种缩小不是凭空而来,它来自多个层面的共同收缩:更紧的局部金属、更多的图案化步数,以及更激进的版图约束。
在单元内部,最底层金属 M0 的节距直接决定了器件与局部互连的布线能力。SMIC N+3 使用 5 条 M0 track 夹在电源轨之间。与 N+2 相比,这一层更紧,也更难做。N+3 的 M0 节距约为 28 nm,比 N+2 缩小了约 12%。M1 与栅极之间的比值也同样关键,因为它决定了单元内部局部布线的灵活性。N+2 和 N+3 都采用 3:2 的 M1-to-gate 比,而 N6 采用 1:1 比。这解释了 M1 节距为什么会有这么大的差异。
这样的 3:2 比值给了 SMIC 比严格 1:1 网格更多的本地布线灵活性,但同时也让版图和图案化更复杂。这是 DTCO 的典型选择:用更高的工艺复杂度,换取在没有 EUV 的情况下恢复密度和可布线性。这个 3:2 比值在领先节点里并不常见。TSMC 只在 N7+、N5 家族和寿命较短的 N3(B) 上用过,后来在 N3E 又回到了 1:1。英特尔只在 10 nm / Intel 7 家族上用过,Intel 4、3 和 18A 都改回 1:1。三星是唯一仍在领先节点使用 3:2 的厂商,用在 SF4 和 SF3 家族。SMIC 未来会继续维持 3:2,还是会在后续节点改回 1:1,还有待观察。业界也仍在积极探索这种局部布线比值。在 VLSI 2026 上,imec 还会展示更高比值的研究,包括一种可把面积最多降低 14% 的 2:1 方案。我们会在未来的 newsletter 里报道这场会议。
订阅
我们正在深入研究市场上最先进的数据中心和 AI 硬件。若想了解接下来会有哪些内容,或委托定制拆解,请联系 sales@semianalysis.com。想加入我们、并相信自己能带来改变?欢迎查看我们的 Careers 页面。
N+3 的最后一层局部互连是 M3,节距为 44 nm。这个节距与 N+2 相同,比 N6 大 10%。
麒麟 9030 中核(左)与 Helio G99 Cortex-A55(右)金属堆栈,fin-cut,HFW 4.59 µm(麒麟 9030)与 3.91 µm(Helio G99)。来源:SemiAnalysis
中层金属承载了大部分块级信号布线,其节距比下层局部金属更粗。在领先节点上,这些层通常设计在 DUV 单重图案化极限附近。我们测得 M4 到 M11 的节距分为三档:80–82 nm(M4–M6)、128 nm(M7–M10)、148 nm(M11)。考虑到采样有限,这些层在更密集的布线区域里也可能进一步细分。
最上方有两层巨大的金属层,M12 和 M13。它们的节距分别与 N+2 相同,为 1920 nm 和 4600 nm。
麒麟 9030 与 Helio G99 金属堆栈节距汇总。来源:SemiAnalysis
虽然下层金属的节距通常由工艺和库决定,但上层金属的节距和数量则会随设计变化很多。即便是同工艺上的两颗手机 SoC,它们的金属堆栈也可能截然不同。Helio G99 的布线层更少,到 M9 就已经达到 850 nm 的粗金属节距;而面积更大、性能更高的麒麟 9030 则把精细节距维持到 M11。
SRAM
在最先进节点上,SRAM 比逻辑更难缩放。TSMC 最新节点几乎没有 bitcell 缩放,而逻辑仍然有更多 DTCO 手段可用。我们在寻找 GPU 计算单元中的其他逻辑库时,意外遇到了 SRAM。最常见的 SRAM 是 6T 结构,但这个单元却是 8T。8T SRAM 通过增加两只晶体管形成独立读端口。与 6T 单元相比,6T 读取会扰动存储状态,而独立读端口可以消除 read-disturb,提高读稳定性,并允许把单元推得更激进,以换取性能。
麒麟 9030 8T SRAM,fin-cut,HFW 1.55 µm。来源:SemiAnalysis
乍看之下,这个截面像是某种不寻常的逻辑库,因为每一排单元都呈现出一种鳍片极性为 3 条、另一种极性为 5 条的结构,而且相邻行还会反向排列。能量色散 X 射线光谱(EDS)解开了这个谜团:这次切片并没有落在 GPU 逻辑上,而是落在旁边的 SRAM 宏上。这个异常鳍片图样来自 SRAM 库。后文付费部分会继续讨论 EDS 和工艺流程分析。
SRAM 库和传统逻辑库并不一样。由于 PMOS 和 NMOS 晶体管数量不对称,它们需要专门的规则和版图库。它们不需要逻辑库那样的灵活性,因此会为了一个目标做到极致:更密、更可靠的存储。
麒麟 9030 8T SRAM,fin-cut,HFW 562.5 nm。来源:SemiAnalysis
6T HDC(1:1:1)、6T HCC(1:2:2)与 8T HCC(1:2:2-2:2)bitcell 示意图,从左到右。来源:SemiAnalysis
我们找到的 SRAM 单元是 1:2:2-2:2 结构。这意味着每个上拉(PU)PMOS 晶体管对应 1 条鳍片,而每个下拉(PD)和传输门(PG)NMOS 晶体管对应 2 条鳍片。这类 2 个 PU、2 个 PD、2 个 PG 的晶体管通常会组成一个 6T 高电流单元(HCC)。而 8T HCC 则会额外加入一个读下拉(RPD)和一个读传输门(RPG)NMOS 晶体管,它们各自也有 2 条鳍片。
SMIC N+3 SRAM bitcell 对比。来源:SemiAnalysis
我们测得单元高度为 406 nm,因此 bitcell 面积为 0.0463 µm²。按此计算,理论峰值密度为 21.6 Mib/mm²。我们估算,如果换成 6T HCC,单元高度会是 292 nm,面积为 0.0337 µm²。这比 Intel 3 和 4 上的 6T HCC 还要大约 12%。我们还估算,6T 高密度单元(HDC)的单元高度会是 228 nm,面积为 0.0260 µm²。这碰巧与前面测得的逻辑标准单元高度相同。这个估算值接近三星 7LPP/5LPP,略低于 TSMC N7/N6。理论峰值密度为 38.5 Mib/mm²。
6T HDC 可能是最重要的单元,因为它用于芯片中最大的缓存,即 L3 和系统级缓存(SLC)。
麒麟 9020(左)与麒麟 9030(右)SLC bank。来源:Kurnal、SemiAnalysis
麒麟 9020 和 9030 都把 SLC 拆成了 4 个 bank,以提升总带宽。在麒麟 9030 上,SLC 从每个 bank 2 MiB 增加到 3 MiB。相应地,每个 bank 内的 array 数量也增加了 50%,从 16 个增加到 24 个。每个 array 可存储 128 KiB,并在晶粒图上形成整齐的图案。从麒麟 9020 到麒麟 9030,128 KiB SLC array 的面积从 0.0477 mm² 缩小到 0.0392 mm²,缩小了 18%。实现密度为 25.5 Mib/mm²,达到理论最大值的 66%。
麒麟 9020(左)与麒麟 9030(右)大 CPU 簇 L3 缓存 bank。来源:Kurnal、SemiAnalysis
与 SLC 相比,L3 在布局上变化更大。总容量也从 10 MiB 提升到 12 MiB。和 SLC 一样,L3 也被拆成 4 个 bank。在麒麟 9020 中,一个 L3 bank 由 16×128 KiB array 和 16×32 KiB array 组成;而麒麟 9030 的一个 L3 bank 则由 48×64 KiB array 组成。麒麟 9020 的 L3 中,128 KiB array 面积为 0.0513 mm²,32 KiB array 面积为 0.0154 mm²。由于两种 array 的辅助电路用途不同,L3 与 SLC 上的 128 KiB array 面积并不相同。在麒麟 9030 的 L3 中,一个 64 KiB array 面积为 0.0210 mm²。虽然不能逐一对应比较,但按容量归一化后,它比 9020 的 128 KiB L3 array 小 18%,比 32 KiB L3 array 小 31%。实现密度略低于 SLC,为 23.8 Mib/mm²,达到理论最大值的 62%。
麒麟 9020(左)与麒麟 9030(右)Prime 核私有 L2 缓存。来源:Kurnal、SemiAnalysis
与 L3 和 SLC 不同,Prime 核的私有 L2 缓存采用双 bank 设计。由于 Prime 核的 L2 对延迟极其敏感,它很可能使用的是 6T HCC,而不是 6T HDC。9020 在每个 bank 中有 16 个 array,而 9030 有 32 个。每个 array 容量都是 32 KiB。32 KiB array 的面积从 0.0171 mm² 缩小到 0.0142 mm²,缩小了约 17%。密度为 17.6 Mib/mm²,大约达到 6T HCC 理论最大值的 59%。
从 N+2 到 N+3,SRAM 缩放得很好,缩小了约 19%,接近理论上的逻辑缩放幅度。需要说明的是,N+2 的 bitcell 本来就异常大,比可比的 7 nm 级节点更大,所以这次提升有一部分属于“追赶”,而不是真正的新一代缩放。借助 STEEL 的拆解见解,我们未来还会专门做一篇 SRAM 深度解析。
订阅
上面这些内容都来自同一次 STEEL 拆解:晶粒标注、模块级面积分析,以及穿过逻辑和 SRAM 的 TEM 截面。我们正在深入研究市场上最先进的数据中心和 AI 硬件。若想了解接下来会有哪些内容,或委托定制拆解,请联系 sales@semianalysis.com。
未来路线图
同样的截面也显示了 SMIC 下一步可能怎么走。虽然 N+3 在若干层上已经接近 DUV 多重图案化的实际极限,但中芯仍然还有少数几个缩放杠杆。理论上的 N+4 很可能从单元高度入手。N+3 在电源轨之间使用 5 条 M0 track。若像 SMIC N+2 和 TSMC N6 那样改成 4 条 M0 track,单元高度大约可以再降 15%。但缩小不仅要看布线网格,前端同样也得塞进更小的单元里。
英特尔 4 单扩散网格,带缩短的 poly 端到端间距。来源:Intel、VLSI 2022
一个可能的 FEOL 杠杆是把 p-to-n 隔离间距从两个 diffusion grid 单位降到一个。英特尔在 Intel 4 上用了这种缩放增强手段,TSMC 也在 N3 家族上这么做。这条路用更少的版图灵活性换取更高密度。更少的 M0 track 会减少局部布线资源,而更紧的 p-to-n 间距会提高集成与设计规则难度。
M2 也会受到单元高度缩小的限制。为了让 SMIC 维持大约 5.7-track 的单元,M2 就必须朝 35 nm 靠拢。这会让另一层金属也进入 SAQP 领域。SMIC 还可以把 CGP 从 57 nm 降到 54 nm。英特尔曾在没有 EUV 的 Intel 10 nm / Intel 7 上达到类似的 CGP。
局部互连更难。如果 SMIC 保持 3:2 的 M1-to-gate 比,那么 M1 需要缩小到 36 nm,而且很可能也得用 SAQP。若 SMIC 改为 1:1 比,M1 就可以放宽到 54 nm,但会牺牲布线灵活性。按这条理论路线,我们估算 SMIC N+4 可以达到 198 nm 的单元高度和 54 nm 的 CGP,对应 Bohr 密度 137.8 MTr/mm²,和 TSMC N5 或三星 SF4 处于同一水平。不过难点是累积性的。每一步单独看都说得通,但合在一起,N+4 比从 N+2 到 N+3 的跨越要难得多。它大概率会更慢、更贵,而且工艺余量更小。
埋置电源轨与背面接触的背面供电方案。来源:UC San Diego、ISPD 2026
理论上的 N+5 则需要更大的集成变革。一个可能路径是背面接触(BSCon),把供电布线和源/漏接触移到晶圆背面,这样可以减轻正面布线压力,并进一步缩小单元高度。正面金属节距则可以放宽,以降低工艺复杂度。M0 很可能会略微放宽到约 34 nm,而 M2 和 M4 的节距则可以进一步放宽。CGP 不太可能再缩小太多。即使有 EUV,48 nm 也一直是良率与工艺控制的实际极限。按这条路,N+5 的单元高度可以降到 170 nm,CGP 为 53 nm,对应 Bohr 密度 163.6 MTr/mm²,和 Intel 18A 的 HP 库相当。
但这并不意味着 N+5 会在成本上与领先节点竞争。它只是以一条更昂贵的路线达到了相近密度。集成难度会急剧上升,因为这会引入新的工艺流程:背面对准、晶圆减薄、接触显影和背面金属化。再往后,标准密度和互连缩放会越来越不划算。到那时,华为的路线图就开始不太像传统晶圆厂路线图,而更像封装路线图了。
华为的 τ 缩放定律
在 ISCAS 2026 上,华为公布了它的 tau(τ)缩放定律,把工艺缩放重新定义到了时间维度。τ 指的是数据移动与处理的时间成本:晶体管的开关延迟、线路中的 RC 传播延迟、计算延迟、内存延迟和网络延迟。用华为自己的术语之外去讲,这就是系统-工艺协同优化。它是华为面对缺乏 EUV 的回答。没有 EUV,平面密度无法追上 TSMC、Intel 或三星。因此,如果晶体管密度无法继续快速缩小,华为的替代方案就是缩短连线、减少缓冲,并把逻辑垂直堆叠起来。
“LogicFolding” 是华为对这一新缩放思路的实现方式,本质上是一种激进的 3D 堆叠。AMD 的 V-Cache 会把 SRAM 放在 CPU die 上方或下方。AMD 的 MI350X 则把有源中介层 die(AID)放在加速器和计算 die(XCD)下方,由 AID 处理缓存、IO 接口、NoC(片上网络)以及嵌入式 MIM 电容。LogicFolding 的做法是把同一个逻辑块的部分电路拆分到多个有源 die 上,再用超细间距进行面对面键合。这样既能缩短某些关键路径、减少缓冲开销,也不只是单纯增加缓存容量或把 IO/互连卸载出去。
缩短连线正是时钟频率提升的来源。现代核心里很大一部分延迟和能耗都花在驱动长互连以及沿线的 repeater 缓冲器上。LogicFolding 把一个模块的关键路径门分布到多个垂直堆叠层,并用极细间距键合,因此键合界面就像额外的一层金属层,最长路径也变短了。这就是华为希望在工艺本身做不到的地方恢复频率和效率的方法。
华为 Prime 核频率路线图。来源:Huawei、SemiAnalysis
华为的路线图说明了它的意图。Prime 核频率的目标是从麒麟 9030 的 2.75 GHz 提升到 2031 年的约 5 GHz,远超单纯平面缩放所能带来的幅度。其实验室里已经在测试 3.1 GHz 和 3.39 GHz 的 Prime 核,但功耗未知。再往后的芯片还处在设计、仿真或路径探索阶段,因此这些频率仍只是目标。不过方向更重要:LogicFolding 不只是帮助提高密度,也有助于提升性能。
问题在于,华为的密度说法不能直接与晶圆厂密度对比。堆叠设计可以通过增加有源层来提高每个封装占地的晶体管数,即便每一层图形化 die 在前端密度上仍明显落后于 TSMC 或 Intel。华为就是这样在口径上声称,到 2031 年它可以达到相当于晶圆厂 14A 级别的密度。
SMIC、华为(3D)、TSMC、Intel 和三星的密度路线图。来源:Huawei、SemiAnalysis
这并不是等口径对比,因为华为用的是堆叠逻辑,密度是按封装占地来算的。按归一化后的 Bohr 密度来看,SMIC N+3 约为 114 MTr/mm²,比 Intel 18A 的 HD 库低 38%。华为的 3D 路线图通过堆叠有源逻辑来缩小差距,到 2030 年可达到 215 MTr/mm²。到 2031 年,路线图密度跃升到 295 MTr/mm²,这意味着要么有第三层有源逻辑,要么部分引入 EUV,要么继续极度激进的平面 DUV 缩放。
华为 LogicFolding 密度路线图,与 TSMC 和 Intel 的堆叠逻辑对比。来源:Huawei、SemiAnalysis
华为的方法还会让其他厂商看起来更“密”。如果把这种方法应用到 AMD 的 MI450X,假设顶部 die 采用 N2、底部 die 采用 N3P,那么在 2026 年可得到 460.2 MTr/mm² 的理论密度,而华为 2031 年的路线图只有 295 MTr/mm²。麒麟 9030 并没有采用 LogicFolding,它仍然是一颗传统的移动 SoC 封装。它的意义在于,为华为和 SMIC 在平面缩放上还能推到什么程度提供了基线。未来对麒麟和昇腾芯片的拆解,将会同时展示平面逻辑密度和华为的混合键合方案。
出口管制与未来缩放
出口管制改变了中国的优化问题,但并没有终结它。EUV 限制提高了先进制造的成本和复杂度,但没有把它冻结住。SMIC 通过 DUV 浸没、SAQP 和 DTCO 实现了 N6 级逻辑密度,而华为则把更多负担转移到架构、封装和系统级集成上。
未来节点会更难。N+3 仍然有空间继续收紧局部金属、降低单元高度和 CGP。没有 EUV 的进一步缩放,剩下的杠杆越来越少。更激进的多重图案化会增加掩膜数和对准误差。SMIC 当然还能继续推进 DUV,但每一步都会更贵,也更不宽容。
设计侧同样关键。华为在麒麟 9030 之前就已经拥有国产 EDA 工具和流程,麒麟 9000s、9010 和 9020 已经说明了这一点。即便被切断了西方 EDA 体系,华为仍然能够在 SMIC N+2 和 N+3 上连续推出多代消费级 SoC。美国在 2022 年限制了先进芯片的 EDA 工具出口,但并没有针对更成熟节点的工具。2025 年,美国政府曾短暂地对 Synopsys、Cadence 等公司的 EDA 软件施加更广泛限制,后来又在不到两个月后,作为与稀土相关贸易协议的一部分取消了这些限制。华为由于仍在美国贸易黑名单上,始终无法接触这些工具。这迫使华为、SMIC 以及中国高校自己开发工具和流程。
北京大学的研究人员最近宣布了一款面向华为 LogicFolding 架构的原型 EDA 工具,它需要新的流程来处理多层版图和版图布局。这并不等于替代完整的 Synopsys 或 Cadence 体系,但它说明国产 EDA 正在朝哪里走:朝着架构、工艺与封装之间更紧密的协同优化方向发展。
这些进步也在向中国生态扩散。根据政府要求,SMIC 正在把其 N+2 和 N+3 工艺授权给 HLMC / 华虹,而不是出于自愿。如果相同的工艺学习经验流向用于 AI 训练和推理的昇腾加速器,瓶颈就会从某一家明确的晶圆厂变成一个生态系统。阿里巴巴的平头哥(T-Head)芯片部门,以及据称将为字节跳动供货的中国 AI 芯片设计公司寒武纪,也都可能成为主要受益者。一旦制造知识扩散到其他晶圆厂和设计公司,仅仅针对 SMIC 的制裁就会越来越不奏效。
中国并没有在追平 Intel、三星和 TSMC。拆解结果在很多地方都说明了相反的一面:没有 EUV、没有背面供电、更高的工艺复杂度,以及清晰可见的权衡。但中国确实还在前进。如果国产芯片最终能“足够好”地用于手机、推理、网络和安全敏感工作负载,那么即便达不到 TSMC 的最先进水平,它们在战略上也依然重要。
在付费内容中,我们会展示 STEEL 还能做什么,包括 SMIC N+3 的材料与工艺流程分析,以及麒麟 9030 封装分析。
我们正在深入研究市场上最先进的数据中心和 AI 硬件。若想了解接下来会有哪些内容、获取完整的麒麟 9030 与 SMIC N+3 分析,或委托定制拆解,请联系 sales@semianalysis.com。
STEEL 拆解管线中其他芯片的一瞥。来源:SemiAnalysis
阅读全文