AI智能总结
行业观点 HBM是AI时代的必需品。HBM解决了传统GDDR遇到的“内存墙”问题,采用了存算一体的近存计算架构,通过中间介质层 紧凑快速地连接信号处理器芯片,极大节省了数据传输的时间与耗能,HBM采用堆栈技术较传统GDDR节省较大空间占用。在应对未来云端AI的多用户,高吞吐,低延迟,高密度部署需求,计算单位剧增使I/O瓶颈愈加严重,使用GDDR解决代价成本越来越高,HBM使得带宽不再受制于芯片引脚的互连数量,在一定程度上解决了I/O瓶颈。综合来看,高带宽、低功耗、高效传输等性能使其成为高算力芯片的首选。 HBM核心技术在于硅通孔技术(TSV)和堆叠键合技术,对封装技术和散热材料提高需求。HBM通过SIP和TSV技术将数个 DRAM裸片垂直堆叠,在DRAM晶片上打数千个细微的孔,通过垂直贯通的电极连接上下芯片的技术,可显著提升数据传输速度。同时,SK海力士采用MR-MUF键合工艺,在芯片之间用液态环氧模塑料作为填充材料,实现了更低的键合应力和更优的散热性能,TSV+堆叠键合工艺成为当前HBM的理想方案,但随着堆叠层数增加,散热要求进一步增加,混合键合有望成为下一代HBM4选择的方案。但无论何种方案,HBM对EMC提出分散性和散热性要求,EMC和填料价值量将大幅提升。 23年全球HBM产值约43.6亿美元,2024年有望翻4倍达到169亿美元。由于HBM售价高昂、获利高,进而导致较高资金 投入,同时,HBM较DDR5同制程与同容量尺寸大35-45%、良率则比起DDR5低约20-30%;生产周期也较DDR5多1.5-2个月,受益于AI需求强劲,GPU厂商提前锁单HBM产能,推动三大原厂持续积极扩产。根据集邦咨询数据,截至2023年底,行业内整体DRAM产业规划生产HBMTSV的产能约为250K/m,占总DRAM产能(约1,800K/m)约14%,供给位元年成长约260%。2023年HBM产值占DRAM整体约8.4%,约43.56亿美元,预估至2024年底将达169.14亿美元,占DRAM产值约20.1%。 投资逻辑 方向一:核心关注国内与HBM上下游相关产业链厂商。我们认为23年是AI训练的元年,24年将是AI推理的元年,主要 归因于海外有望持续推出包括Sora在内的AI应用产品,叠加国内国央企发力AI应用,这将有力带动AI推理的需求。芯片领域,我们认为算力和存储是两个率先受益的领域,特别是在当前国产化大趋势下,算力和存储将决定未来十年AI胜负的关键,国产HBM未来有较大的需求空间,国内与HBM相关产业链的公司有望加速发展。 方向二:HBM对DRAM先进制程造成排挤效应,有望推动主流DRAM持续涨价,重点关注存储模组。归因于三个方面: 1)三大原厂继存储器合约价翻扬后,开始加大先进制程的投片,产能提升将集中在24年下半年;2)受益于AIPC、AI手机和服务器持续升级,预期今年DDR5、LPDDR5(X)渗透率增加至50%,将消耗更多DRAM先进制程产能;3)由于HBM3e出货将集中在今年下半年,期间同属存储器需求旺季,DDR5与LPDDR5(X)市场预期需求也将看增,但受到2023年亏损压力影响,原厂产能扩张计划也较谨慎。在各家优先排产HBM情况下,有望导致DRAM产能紧张,重点建议关注受益于主流存储涨价逻辑的存储模组公司以及相关的存储封测和材料公司。 方向三:存储大厂产能转向DDR5/HBM,有望加速退出利基存储市场,将为国内利基型存储芯片厂商带来发展机会。由于三 大厂商加大投入HBM与主流DDR5规格内存,有望减少供应DDR3等利基型DRAM的供应,而随着终端需求复苏,利基市场有望迎来短期的产能紧缺,价格有望迎来上扬,核心建议关注国内利基存储厂商。 投资建议 持续看好HBM相关产业链公司,和受益于存储器涨价的模组及利基存储芯片公司,重点关注香农芯创、联瑞新材、通富微电、兆易创新、江波龙等。 风险提示 产能扩产不及预期、AI发展不及预期、技术提升不及预期等。 内容目录 一、HBM是什么?4 1.1HBM是AI时代的必需品4 1.2NVIDIA和AMD依靠HBM持续提升GPU性能6 二、HBM对半导体产业链的影响8 2.1HBM的核心工艺在于硅通孔技术(TSV)和堆叠键合技术8 2.2HBM对散热材料EMC提出分散性和散热性要求10 三、HBM的供需及空间市场情况11 3.1SK海力士持续领先,三星和美光加紧追赶11 3.2预计2024年HBM产值将翻4倍,达到169亿美元14 3.3投资建议15 风险提示17 图表目录 图表1:HBM通过硅中介层和TSV来运行4 图表2:传统打线与TSV穿孔区别4 图表3:GDDR与HBM结构分布5 图表4:GDDR与HBM占用空间对比5 图表5:HBM架构详解5 图表6:HBM3在NVIDIAHopper架构的应用5 图表7:GDDR与HBM性能对比6 图表8:不同内存类型之间DRAM容量和带宽的差异6 图表9:HBM在GPU中搭配6 图表10:HBM与GPU集成在一起6 图表11:NVIDIA不同GPU型号搭载HBM情况7 图表12:AMD不同GPU型号搭载HBM情况7 图表13:随着搭载HBM容量提升GPU效能倍数提升8 图表14:H200较H100在大模型领域性能提升情况8 图表15:NVIDIA和AMDAI芯片发展历程及HBM规格比较8 图表16:HBM通过TSV技术内部连接情况9 图表17:英伟达A100SEM扫描图9 图表18:SK海力士MR-MUF技术9 图表19:MR-MUF比NCF导热率高出2倍左右9 图表20:三星HBM4预计采用混合键合技术10 图表21:HBM对EMC性能提出新要求,所用填料也需要改变11 图表22:HBM封装需要用到GMC和LMC两类偏高端的EMC11 图表23:HBM版本迭代情况11 图表24:2022-2024E三大存储厂商在HBM领域的份额情况12 图表25:当前SK海力士在HBM领域布局情况12 图表26:当前三星电子在HBM领域布局情况12 图表27:当前美光在HBM领域布局情况13 图表28:三大厂商关于HBM的代际规划14 图表29:美光在HBM领域技术路线14 图表30:2024年HBM产值及占DRAM产值比重15 图表31:三大存储原厂在HBMTSV的产能布局15 一、HBM是什么? 1.1HBM是AI时代的必需品 作为行业主流存储产品的动态随机存取存储器DRAM针对不同的应用领域定义了不同的产品,几个主要大类包括LPDDR、DDR、GDDR和HBM等,他们虽然均使用相同的DRAM存储单元(DRAMDie),但其组成架构功能不同,导致对应的性能不同。手机、汽车、消费类等对低功耗要求高主要使用LPDDR,服务器和PC端等有高传输、高密度要求则使用DDR,图形处理及高算力领域对高吞吐量、高带宽、低功耗等综合性要求极高则使用GDDR和HBM。 HBM(HighBandwidthMemory),意为高带宽存储器,是一种面向需要极高吞吐量的数据密集型应用程序的DRAM,常被用于高性能计算、网络交换及转发设备等需要高存储器带宽的领域。 那么HBM到底优势在哪呢? 1,通过TSV技术,堆叠方案解决内存墙的问题。 基于冯·诺依曼理论的传统计算机系统架构一直存在“内存墙”的问题,主要归因于:第一存储与计算单元分离,存储与处理器之间通过总线传输数据,这容易导致存储的带宽计算单元的带宽,从而导致AI算力升级较慢;第二,是高功耗,在处理器和存储之间频繁传输数据,会产生较多的能耗,也会使传输速率下降。 相较于传统GDDR,HBM具有更高速,更低耗,更轻薄等诸多优点。 HBM凭借独特的TSV信号纵向连接技术,其内部将数个DRAM芯片在缓冲芯片上进行立体堆叠,其内部堆叠的DDR层数可达4层、8层以至12层,从而形成大容量、高位宽的DDR组合阵列。TSV是在DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片的技术。该技术在缓冲芯片上将数个DRAM芯片堆叠起来,并通过贯通所有芯片层的柱状通道传输信号、指令、电流。相较传统封装方式,该技术能够缩减30%体积,并降低50%能耗。凭借TSV方式,HBM大幅提高了容量和位宽(I/O数量)。与传统内存技术相比,HBM具有更高带宽、更多I/O数量、更低功耗、更小尺寸等特征。具体来看 (1)存储带宽问题:由于存储的制成与封装工艺与CPU的制成封装工艺不同,CPU使用的是SRAM寄存器,速度快,双稳态电路,而存储器使用的是DRAM寄存器,速度慢,单稳态电路。这样的工艺不同拉大了两者间的差距,在过去20年内,CPU的峰值计算能力增加了90000倍,内存/硬件互存宽带却只是提高了30倍。存储的带宽通过总线一直限制着计算单位的带宽,最新型的GDDR6单颗带宽上限在96GB/s,而最新型的单栈HBM3E带宽上限近1.2TB/s,在AI应用中,每个SoC的带宽需求都会超过几TB/s,上百倍的数据传输差距使得传统DRAM远不能满足AI训练所需的算力缺口。 (2)传输效能问题:由于分离距离问题,数据存算间(I/O)会有很大的延误,一步数据计算过后的大部分时间都在读取内存,查询所用的大量时间与吞吐量影响用户体验,数据传输能量消耗占总数据存算的60-90%,严重浪费效能。 (3)占用空间问题:传统GDDR由于是2D平面分布,占用空间大,无法满足目前消费电子轻量化与便携化的需求。 图表1:HBM通过硅中介层和TSV来运行图表2:传统打线与TSV穿孔区别 来源:SemiconductorEngineering,国金证券研究所来源:SK海力士,国金证券研究所 图表3:GDDR与HBM结构分布图表4:GDDR与HBM占用空间对比 来源:AMD官网,国金证券研究所来源:AMD官网,国金证券研究所 HBM包括多层DRAM芯片和一层基本逻辑芯片,不同DRAM以及逻辑芯片之间用TSV与微凸块技术实现通道连接,每个HBM芯片可与多达8条通道与外部连接,每个通道可单独访问1组DRAM阵列,通道间访存相互独立。逻辑芯片可以控制DRAM芯片,并提供与处理器芯片连接的接口,主要包括测试逻辑模块与物理层(PHY)接口模块,其中PHY接口通过中间介质层与处理器直接连通,直接存取(DA)端口提供HBM中多层DRAM芯片的测试通道。中间介质层通过微凸块连接到封装基板,从而形成SiP系统。 图表5:HBM架构详解图表6:HBM3在NVIDIAHopper架构的应用 来源:《高宽带的技术演进和测试挑战》,国金证券研究所来源:NVIDIA官网,国金证券研究所 2,AI时代存力的首选。 自ChatGPT爆火之后,国内外大厂争相竞逐AI大模型。而AI大模型的基础,就是靠海量数据和强大算力来支撑训练和推理过程。其中一些模型有1000亿字节的数据,参数量越大,AI模型越智能,以GPT-4模型为例有近1.76万亿参数量。对于每次重新训练的迭代,都必须从数据中心背板的磁盘上取出1000亿字节的数据并进入计算盒,在为期两个月的训练中,必须来回调取数百万次如此庞大的数据。如果能缩短数据存取,就会大大简化训练过程。但在过去20年中,存储和计算并没有同步发展,硬件的峰值计算能力增加了90000 倍,而内存/硬件互连带宽却只是提高了30倍。当存储的性能跟不上处理器,对指令和数据的搬运(写入和读出)的时间将是处理器运算所消耗时间的几十倍乃至几百倍,这就要打破“内存墙”。此时,高带宽内存HBM应运而生,被认为是AI计算的首选内存。 图表7:GDDR与HBM性能对比图表8:不同内存类型之间DRAM容量和带宽的差异 来源:AMD,国金证券研究所来源:Synopsys,国金证券研究所 HBM解决了传统GDDR遇到的“内存墙”问题,采用了存算一体的近存计算架构,不通过外部连线的方式与GPU/CPU/Soc连接,而是通过中间介质层紧凑快速地连接信号处理器芯片,极大的节省了数据传输所使用的时间与耗能。而在空间