行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

3D DRAM：开启端侧 AI 蓝海

电子设备 2025-05-27 - 国泰海通证券绿毛水怪

核心观点

DRAM技术趋势：随着制程微缩放缓，DRAM行业长远命题在于从2D转向3D架构，混合键合方案（Hybrid Bonding）因其堆叠层数多、传输速度快、散热效果好等特点，代表3D DRAM未来技术路径。
AI应用现状：AI应用走向百花齐放，而非高度范化的统一模型，小型MoE模型（如Qwen3-30B-A3B）在激活参数数量少的情况下表现优异，为端侧AI提供模型基础。
端侧AI技术趋势：NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势，当前AI端侧推理速度的主要瓶颈在内存带宽而非算力，3D DRAM+NPU方案可有效解决内存限制问题。

关键数据

10nm节点DRAM挑战：电容器图案化要求高，感测放大器易受变化和泄漏影响。
高通骁龙8GEN3：NPU算力约45 TOPs，内存带宽约67 GB/s，运行7B大模型时内存带宽限制约4.8 tokens/s，远大于计算限制。
3D DRAM+NPU方案：假设内存带宽提升至800 GB/s，内存限制将提升至57 tokens/s。

研究结论

投资建议：给予行业“增持”评级，推荐兆易创新，因其发力3D DRAM+NPU方案，技术趋势明确。
风险提示：AI终端渗透不及预期、3D DRAM技术迭代进展不及预期。

技术方案对比

WoW 3D DRAM vs CUBE/WoW：主要差异在于键合方式，WoW采用混合键合，CUBE采用Micro bump。
混合键合优势：改进间距、降低电阻、最小化扇出，实现更高密度和更快传输速度。
SeDRAM技术流程：通过异质集成工艺实现高密度连接和低电阻。

市场竞争

主要参与者：兆易创新（及其子公司青耘科技、光羽芯成）、华邦电、高通等。
产业趋势：硬件领先于模型，未来模型爆发将吃硬件红利，2025年底或2026年商用爆发的企业将迎来红利窗口期。

请务必阅读正文之后的免责条款部分3D DRAM：开启端侧AI蓝海DRAM架构由2D转向3D，代表下一代端侧AI技术趋势[table_Authors]舒迪(分析师)吴小沛(研究助理)021-38676666021-38676666登记编号S0880521070002S0880125042240本报告导读：DRAM的长远命题在于从2D转向3D架构。海外硬件大厂在储备能让AI“泛在”与“常开”的技术，NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势。投资要点：[Table_Summary]行业观点及投资建议。NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势，给予行业“增持”评级，推荐兆易创新。DRAM制程微缩放缓，长远命题在于从2D转向3D架构。随着DRAM制程节点不断缩小，目前DRAM芯片工艺已经突破到了10nm级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显，要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。随着DRAM芯片制程愈发先进，长远命题在于从2D转向3D架构；混合键合方案改进了Micro bump的堆叠高度限制等问题，代表3D DRAM未来技术路径。从技术差异上来说，WoW 3D DRAM与CUBE及现有的HBM方案主要差异在于键合方式分别为混合键合与Micro bump。与已广泛使用的Micro Bump堆叠技术相比，混合键合不配置凸块，可容纳较多堆叠层数，也能容纳较厚的晶粒厚度，以改善翘曲问题。使用混合键合方案的芯片传输速度较快，散热效果也较好。考虑到堆叠高度限制、IO密度、散热等要求，三大HBM原厂已确定于HBM5 20hi世代使用HybridBonding。AI应用目前在走向百花齐放，而不是高度范化的统一模型。硬件侧在为应用的落地酝酿很多新技术储备，这些机会更加重要。MOE模型开始驱动小的大模型，小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，激活10%参数量却能超过满血模型，也为端侧应用提供了模型基础。我们认为，海外硬件大厂在储备能让AI“泛在”与“常开”的技术，NPU作为协处理器的运用叠加3D DRAM极有可能是下一代的端侧技术趋势。当前AI端侧推理速度的主要瓶颈在内存带宽而非算力，内存限制问题由3D DRAM解决。以高通骁龙8GEN3为例，其NPU算力约45 TOPs，内存带宽约为67 GB/s，若运行7B大模型，代入前述公式得到计算能力限制约3215 tokens/s，内存带宽限制约4.8 tokens/s，最终速度取两者中的最小值，确保实际推理不受硬件瓶颈限制，而其内存限制瓶颈明显远大于计算限制。DRAM+NPU通过HB堆叠的形式合封，我们假设以800 GB/s的内存带宽代入上述高通骁龙8GEN3的问题，内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成，以及中国台湾存储IDM华邦电、手机AP龙头高通等，均发力3D DRAM+NPU方案，技术趋势明确。风险提示。AI应用渗透不及预期；3D DRAM技术发展不及预期。请务必阅读正文之后的免责条款部分2 of 101.3D DRAM：蓄势待发1.1.DRAM制程微缩放缓，长远命题在于从2D转向3D架构DRAM制程微缩放缓，长远命题在于材料和架构的突破。随着DRAM制程节点不断缩小，目前DRAM芯片工艺已经突破到了10nm级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显，要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。我们认为，随着DRAM芯片制程愈发先进，利用EUV光刻迈入到10nm工艺路线已逐步确立，但面对物理基础和结构技术的瓶颈，DRAM厂商的长远命题是材料和架构的突破。图1：海外大厂DRAM roadmap数据来源：半导体行业观察公众号，techinsights，国泰海通证券研究10nm节点DRAM电容器及感测放大器存在显著挑战。进入10nm节点后，三星的1z节点和SK海力士的1a节点中增加了EUV光刻，但并没有显著提高密度，在电容器和感应放大器方面存在两个显著的挑战：（1）电容器：DRAM存储电容器需要在100:1纵横比的孔中形成许多精致的层。电容器图案化要求很高，孔必须紧密排列，具有非常好的临界尺寸（CD）和重叠控制，以便与下面的存取晶体管接触，避免桥接或其他缺陷。此外，电容器具有非常高的纵横比，蚀刻直而窄的孔轮廓非常困难，再加上需要更厚的硬掩模以蚀刻地更深，更厚的掩模又需要更厚的光刻胶，而光刻胶更难图案化；（2）感测放大器：随着感测放大器变得更小、灵敏度降低，更容易受到变化和泄漏的影响。同时，更小的电容器存储的电荷更少，因此读取它们的感测要求变得更加困难。DRAM从2D架构转向3D架构是未来的主要趋势。3D DRAM是将多颗2D DRAM存储单元（Cell）堆叠至逻辑单元上方以实现在单位晶圆面积上产出上更多的产量。请务必阅读正文之后的免责条款部分3 of 10数据来源：半导体行业观察公众号，Yole，国泰海通证券研究HBM：HBM是由DRAM颗粒三维堆叠而成的一种高性能内存技术。（如图3）。其中每个DRAM颗粒通过μ-Bump和硅通孔（TSV）技术垂直连接到底层的逻辑芯片上，这种垂直连接方式使得整个堆叠栈能够通过2.5D封装技术与计算芯片（xPU）一起集成到同一个硅中介层上。CUBE/WoW（Wafer on Wafer）：CUBE的创新3D架构巧妙地将SoC置上（如图4），更加靠近散热器，从而有效缓解边缘AI计算的散热问题。基于3D堆叠以及小尺寸实现的紧凑外形，使CUBE成为便携式设备和空间受限设备的理想之选。SoC Die及CUBE Die之间的连接方式通过Micro bumps热压键合，通过引入TSV，进一步提高信号完整性、电源完整性以及整体系统效率；Wafer on Wafer与CUBE方案主要差异在于键合方式为混合键合（Hybrid Bonding）。图4：华邦电CUBE 3D堆叠方案结构图数据来源：芯片制造与封装公众号，国泰海通证券研究数据来源：Winbond，国泰海通证券研究华邦CUBE方案中，SoC die位于CUBE die上方，下层可作为DRAM+硅电容+硅中介的角色存在。SoC厂商可根据需要，定制IO数量、摆放方式、后道封装方式TSV、走线等。CUBE应用方向定位在边缘计算，如智能摄像头、AR/VR、AI-NMC等。单die带宽在16GB/s-256GB/s之间，容量高至4Gb，必要情况下也可通过堆叠stack的方式来扩大容量。请务必阅读正文之后的免责条款部分4 of 10数据来源：Winbond，国泰海通证券研究1.2.混合键合方案改进Micro bump堆叠高度限制等问题，代表3D DRAM未来技术路径从技术差异上来说，WoW 3D DRAM与CUBE及现有的HBM方案主要差异在于键合方式分别为混合键合（Hybrid Bonding）与Micro bump。与已广泛使用的Micro Bump (微凸块)堆叠技术相比，Hybrid Bonding由于不配置凸块，可容纳较多堆叠层数，也能容纳较厚的晶粒厚度，以改善翘曲问题。使用Hybrid Bonding的芯片传输速度较快，散热效果也较好。根据TrendForce集邦咨询，三大HBM原厂亦正在考虑是否于HBM4 16hi采用Hybrid Bonding，考虑到堆叠高度限制、IO密度、散热等要求，已确定于HBM5 20hi世代使用Hybrid Bonding。图6：各世代HBM堆叠高度及供应商堆叠技术数据来源：TrendForce集邦公众号，国泰海通证券研究图7：存储原厂在HBM中导入混合键合方案的进展数据来源：半导体之窗公众号，国泰海通证券研究在使用硅中介层的情况下，Micro bump技术的特点是焊球直径极小。但是，请务必阅读正文之后的免责条款部分5of10即使采用这种方法，仍存在以下问题：（1）间距限制：只要使用凸块，焊料在受到温度（和压力）时就会膨胀，因此很难实现小于10μm的间距；（2）电阻：凸块基本上由焊料组成。由于优先考虑可靠的连接，凸块通常表现出较高的电阻；（3）信号路由：由于信号通过凸块本质上被视为离开芯片，因此即使不涉及完整的PHY，也需要输出电路（Fan Out），导致通信期间的功耗增加，并且延迟会略有增加。混合键合不同于目前封装领域主流的Bump（焊料凸块）键合，而是通过金属（例如铜）和氧化物键合来连接芯片，其主要优势在于减小凸块间距和接触间距，从而增加相同面积内的连接密度，进而实现更快的传输速度并降低功耗。图8：Hybrid Bonding技术原理数据来源：SEM I VISION，国泰海通证券研究混合键合直接连接两个芯片（或一个芯片和一个封装），而不依赖于凸块。然而，目前将芯片连接到封装仍然具有挑战性，因此该技术主要限于芯片的3D堆叠（包括WoW、CoW等）。相比Micro bump前述的问题，其改进在于：（1）改进的间距：由于焊料在粘合过程中不会膨胀，因此实现小于10μm的间距是完全可行的；（2）降低电阻：铜与铜之间的直接接触最大限度地减少了过剩电阻，从而降低了功耗和寄生电容引起的延迟；（3）扇出最小化：本质上，扇出是不必要的（尽管仍然包含最小的保护电路）。图9：Hybrid Bonding方案优势数据来源：SEM I VISION，国泰海通证券研究在WoW 3D DRAM（基于混合键合工艺）制造流程方面，我们以紫光国芯SeDRAM平台为例：（1）首先，流片生产不同工艺下的DRAM Wafer和搭载有外围电路的Logic Wafer，并通过平坦化、曝光和刻蚀等异质集成工艺，请务必阅读正文之后的免责条款部分6of10在两张晶圆上分别制成用于后续步骤的接触孔；（2）然后，将逻辑晶圆翻转，通过Cu-Cu互连的方式，将两张晶圆直接键合；（3）将逻辑晶圆减薄至约3um厚度，并从逻辑晶圆背面开口完成PAD制作。相比于HBM的微凸块(Micro Bump)工艺，通过直接键合方式的异质集成工艺，接触孔可达110,000个/mm2，实现了百倍量级的密度提升，而且连接电阻低至0.5欧姆。从而实现了从逻辑电路到存储阵列之间每Gbit高达34GB/s的带宽和0.88pJ/bit的能效。图10：SeDRAM技术流程数据来源：紫光国芯，国泰海通证券研究2.推理速度取决于内存带宽瓶颈突破，3D DRAM+NPU方案技术趋势明确Qwen3-4B小尺寸模型数学及代码能力以小博大，有望助力端侧AI全面开花。4月29日，阿里开源了新一代通义千问模型Qwen3，在GPQ A、AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等，表现出具备竞争力的结果。千问3提供了8款不同尺寸的丰富的模型版本，包含2款30B、235B的混合专家模型，以及6款稠密模型，每款模型均斩获同尺寸开源模型SOTA。其中，小尺寸模型的表现亮眼，Qwen3-4B在数学、代码能力上“以小博大”，和比自身大10倍模型水平相当，在数学编码生化上获得了显著提升，可媲美Qwen2.5-72B。我们认为，Qwen3-4B小尺寸模型性能与效率兼顾。提供的小尺寸高效方案将有利于更好地推动移动端部署，手机等AI端侧协同将迎来大幅增强。AI应用目前在走向百花齐放，而不是高度范化的统一模型。硬件侧在为应用的落地酝酿很多新技术储备，这些机会更加重要。MOE模型开始驱动小的大模型，小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，激活10%参数量却能超过满血模型，也为端侧应用提供了模型基础。我们认为，海外硬件大厂在储备能让AI“泛在”与“常开”的技术，NPU作为协处理器的运用极有可能是下一代的端侧技术趋势。数据来源：通义千问Qwen，国泰海通证券研究NPU是开启端侧AI的关键，

点击免费查看完整报告