请务必阅读正文之后的免责条款部分3D DRAM:开启端侧AI蓝海DRAM架构由2D转向3D,代表下一代端侧AI技术趋势[table_Authors]舒迪(分析师)吴小沛(研究助理)021-38676666021-38676666登记编号S0880521070002S0880125042240本报告导读:DRAM的长远命题在于从2D转向3D架构。海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势。投资要点:[Table_Summary]行业观点及投资建议。NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势,给予行业“增持”评级,推荐兆易创新。DRAM制程微缩放缓,长远命题在于从2D转向3D架构。随着DRAM制程节点不断缩小,目前DRAM芯片工艺已经突 破到了10nm级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显,要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。随着DRAM芯片制程愈发先进,长远命题在于从2D转向3D架构;混合键合方案改进了Micro bump的堆叠高度限制等问题,代表3D DRAM未来技术路径。从技术差异上来说,WoW 3D DRAM与CUBE及现有的HBM方案主要差异在于键合方式分别为混合键合与Micro bump。与已广泛使用的Micro Bump堆叠技术相比,混合键合不配置凸块,可容纳较多堆叠层数,也能容纳较厚的晶粒厚度,以改善翘曲问题。使用混合键合方案的芯片传输速度较快,散热效果也较好。考虑到堆叠高度限制、IO密度、散热等要求,三大HBM原厂已确定于HBM5 20hi世代使用HybridBonding。AI应用目前在走向百花齐放,而不是高度范化的统一模型。硬件侧在为应用的落地酝酿很多新技术储备,这些机会更加重要。MOE模型开始驱动小的大模型,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,激活10%参数量却能超过满血模型,也为端侧应用提供了模型基础。我们认为,海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势。当前AI端侧推理速度的主要瓶颈在内存带宽而非算力,内存限制问题由3D DRAM解决。以高通骁龙8GEN3为例,其NPU算力约45 TOPs,内存带宽约为67 GB/s,若运行7B大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。DRAM+NPU通过HB堆叠的形式合封,我们假设以800 GB/s的内存带宽代入上述高通骁龙8GEN3的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP龙头高通等,均发力3D DRAM+NPU方案,技术趋势明确。风险提示。AI应用渗透不及预期;3D DRAM技术发展不及预期。 请务必阅读正文之后的免责条款部分2 of 101.3D DRAM:蓄势待发1.1.DRAM制程微缩放缓,长远命题在于从2D转向3D架构DRAM制程微缩放缓,长远命题在于材料和架构的突破。随着DRAM制程节点不断缩小,目前DRAM芯片工艺已经突破到了10nm级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显,要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。我们认为,随着DRAM芯片制程愈发先进,利用EUV光刻迈入到10nm工艺路线已逐步确立,但面对物理基础和结构技术的瓶颈,DRAM厂商的长远命题是材料和架构的突破。图1:海外大厂DRAM roadmap数据来源:半导体行业观察公众号,techinsights,国泰海通证券研究10nm节点DRAM电容器及感测放大器存在显著挑战。进入10nm节点后,三星的1z节点和SK海力士的1a节点中增加了EUV光刻,但并没有显著提高密度,在电容器和感应放大器方面存在两个显著的挑战:(1)电容器:DRAM存储电容器需要在100:1纵横比的孔中形成许多精致的层。电容器图案化要求很高,孔必须紧密排列,具有非常好的临界尺寸(CD)和重叠控制,以便与下面的存取晶体管接触,避免桥接或其他缺陷。此外,电容器具有非常高的纵横比,蚀刻直而窄的孔轮廓非常困难,再加上需要更厚的硬掩模以蚀刻地更深,更厚的掩模又需要更厚的光刻胶,而光刻胶更难图案化;(2)感测放大器:随着感测放大器变得更小、灵敏度降低,更容易受到变化和泄漏的影响。同时,更小的电容器存储的电荷更少,因此读取它们的感测要求变得更加困难。DRAM从2D架构转向3D架构是未来的主要趋势。3D DRAM是将多颗2D DRAM存储单元(Cell)堆叠至逻辑单元上方以实现在单位晶圆面积上产出上更多的产量。 请务必阅读正文之后的免责条款部分3 of 10数据来源:半导体行业观察公众号,Yole,国泰海通证券研究HBM:HBM是由DRAM颗粒三维堆叠而成的一种高性能内存技术。(如图3)。其中每个DRAM颗粒通过μ-Bump和硅通孔(TSV)技术垂直连接到底层的逻辑芯片上,这种垂直连接方式使得整个堆叠栈能够通过2.5D封装技术与计算芯片(xPU)一起集成到同一个硅中介层上。CUBE/WoW(Wafer on Wafer):CUBE的创新3D架构巧妙地将SoC置上(如图4),更加靠近散热器,从而有效缓解边缘AI计算的散热问题。基于3D堆叠以及小尺寸实现的紧凑外形,使CUBE成为便携式设备和空间受限设备的理想之选。SoC Die及CUBE Die之间的连接方式通过Micro bumps热压键合,通过引入TSV,进一步提高信号完整性、电源完整性以及整体系统效率;Wafer on Wafer与CUBE方案主要差异在于键合方式为混合键合(Hybrid Bonding)。图4:华邦电CUBE 3D堆叠方案结构图数据来源:芯片制造与封装公众号,国泰海通证券研究数据来源:Winbond,国泰海通证券研究华邦CUBE方案中,SoC die位于CUBE die上方,下层可作为DRAM+硅电容+硅中介的角色存在。SoC厂商可根据需要,定制IO数量、摆放方式、后道封装方式TSV、走线等。CUBE应用方向定位在边缘计算,如智能摄像头、AR/VR、AI-NMC等。单die带宽在16GB/s-256GB/s之间,容量高至4Gb,必要情况下也可通过堆叠stack的方式来扩大容量。 请务必阅读正文之后的免责条款部分4 of 10数据来源:Winbond,国泰海通证券研究1.2.混合键合方案改进Micro bump堆叠高度限制等问题,代表3D DRAM未来技术路径从技术差异上来说,WoW 3D DRAM与CUBE及现有的HBM方案主要差异在于键合方式分别为混合键合(Hybrid Bonding)与Micro bump。与已广泛使用的Micro Bump (微凸块)堆叠技术相比,Hybrid Bonding由于不配置凸块,可容纳较多堆叠层数,也能容纳较厚的晶粒厚度,以改善翘曲问题。使 用Hybrid Bonding的 芯 片 传 输 速 度 较 快 , 散 热 效 果 也 较 好。根据TrendForce集邦咨询,三大HBM原厂亦正在考虑是否于HBM4 16hi采用Hybrid Bonding,考虑到堆叠高度限制、IO密度、散热等要求,已确定于HBM5 20hi世代使用Hybrid Bonding。图6:各世代HBM堆叠高度及供应商堆叠技术数据来源:TrendForce集邦公众号,国泰海通证券研究图7:存储原厂在HBM中导入混合键合方案的进展数据来源:半导体之窗公众号,国泰海通证券研究在使用硅中介层的情况下,Micro bump技术的特点是焊球直径极小。但是, 请务必阅读正文之后的免责条款部分5of10即使采用这种方法,仍存在以下问题:(1)间距限制:只要使用凸块,焊料在受到温度(和压力)时就会膨胀,因此很难实现小于10μm的间距;(2)电阻:凸块基本上由焊料组成。由于优先考虑可靠的连接,凸块通常表现出较高的电阻;(3)信号路由:由于信号通过凸块本质上被视为离开芯片,因此即使不涉及完整的PHY,也需要输出电路(Fan Out),导致通信期间的功耗增加,并且延迟会略有增加。混合键合不同于目前封装领域主流的Bump(焊料凸块)键合,而是通过金属(例如铜)和氧化物键合来连接芯片,其主要优势在于减小凸块间距和接触间距,从而增加相同面积内的连接密度,进而实现更快的传输速度并降低功耗。图8:Hybrid Bonding技术原理数据来源:SEM I VISION,国泰海通证券研究混合键合直接连接两个芯片(或一个芯片和一个封装),而不依赖于凸块。然而,目前将芯片连接到封装仍然具有挑战性,因此该技术主要限于芯片的3D堆叠(包括WoW、CoW等)。相比Micro bump前述的问题,其改进在于:(1)改进的间距:由于焊料在粘合过程中不会膨胀,因此实现小于10μm的间距是完全可行的;(2)降低电阻:铜与铜之间的直接接触最大限度地减少了过剩电阻,从而降低了功耗和寄生电容引起的延迟;(3)扇出最小化:本质上,扇出是不必要的(尽管仍然包含最小的保护电路)。图9:Hybrid Bonding方案优势数据来源:SEM I VISION,国泰海通证券研究在WoW 3D DRAM(基于混合键合工艺)制造流程方面,我们以紫光国芯SeDRAM平台为例:(1)首先,流片生产不同工艺下的DRAM Wafer和搭载有外围电路的Logic Wafer,并通过平坦化、曝光和刻蚀等异质集成工艺, 请务必阅读正文之后的免责条款部分6of10在两张晶圆上分别制成用于后续步骤的接触孔;(2)然后,将逻辑晶圆翻转,通过Cu-Cu互连的方式,将两张晶圆直接键合;(3)将逻辑晶圆减薄至约3um厚度,并从逻辑晶圆背面开口完成PAD制作。相比于HBM的微凸块(Micro Bump)工艺,通过直接键合方式的异质集成工艺,接触孔可达110,000个/mm2,实现了百倍量级的密度提升,而且连接电阻低至0.5欧姆。从而实现了从逻辑电路到存储阵列之间每Gbit高达34GB/s的带宽和0.88pJ/bit的能效。图10:SeDRAM技术流程数据来源:紫光国芯,国泰海通证券研究2.推理速度取决于内存带宽瓶颈突破,3D DRAM+NPU方案技术趋势明确Qwen3-4B小尺寸模型数学及代码能力以小博大,有望助力端侧AI全面开花。4月29日,阿里开源了新一代通义千问模型Qwen3,在GPQ A、AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等,表现出具备竞争力的结果。千问3提供了8款不同尺寸的丰富的模型版本,包含2款30B、235B的混合专家模型,以及6款稠密模型,每款模型均斩获同尺寸开源模型SOTA。其中,小尺寸模型的表现亮眼,Qwen3-4B在数学、代码能力上“以小博大”,和比自身大10倍模型水平相当,在数学编码生化上获得了显著提升,可媲美Qwen2.5-72B。我们认为,Qwen3-4B小尺寸模型性能与效率兼顾。提供的小尺寸高效方案将有利于更好地推动移动端部署,手机等AI端侧协同将迎来大幅增强。AI应用目前在走向百花齐放,而不是高度范化的统一模型。硬件侧在为应用的落地酝酿很多新技术储备,这些机会更加重要。MOE模型开始驱动小的大模型,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,激活10%参数量却能超过满血模型,也为端侧应用提供了模型基础。我们认为,海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU作为协处理器的运用极有可能是下一代的端侧技术趋势。 数据来源:通义千问Qwen,国泰海通证券研究NPU是开启端侧AI的关键,