您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:产业观察03期:AI将成为芯片国产化的最大机会——算力产业研究系列(三) - 发现报告

产业观察03期:AI将成为芯片国产化的最大机会——算力产业研究系列(三)

2024-11-12李嘉琪、王浩国泰君安证券静***
产业观察03期:AI将成为芯片国产化的最大机会——算力产业研究系列(三)

2024.11.1203期AI将成为芯片国产化的最大机会——算力产业研究系列(三) 产业研究中心 摘要:算力产业最新趋势跟踪,点评产业最新风向 王浩(分析师)0755-23976068wanghao013539@gtjas.com登记编号S0880513090004 HBM(High Bandwidth Memory)是一种以高带宽、低功耗为特点的存储技术。相比于传统的平面排列,HBM运用独特的3D堆叠设计,垂直堆叠多层DRAM芯片,通过硅通孔(TSV)技术进行连接,使各层内存实现高速连接与数据传输。 2.AI将成为芯片国产化最大机会 【新能源车产业跟踪】奥迪上汽合作2025年夏季投放,小鹏全球首款AI汽车上市2024.11.11 【数字经济周报】ChatGPT search发布,ChatGPT正式拥有联网搜索功能2024.11.09氢周一见|国家发改委鼓励低碳氢规模化替代高碳氢2024.11.05【新能源车产业跟踪】小米SU7 Ultra预售81.49万,小鹏汇天“陆地航母”飞行汽车首飞2024.11.04氢周一见|南方电网首个兆瓦级阴离子交换膜制氢示范项目开工建设2024.10.28 AI将成为芯片国产化的最大机会。我们认为,AI时代对芯片需求的变化,也为国产化提供了更多的机会。先进制程想追赶头部厂商及其困难,但封装技术持续迭代更新的过程中,鉴于其更低的初始及累计投资门槛,国产设备和工艺可保持较高ROI(CoWoS毛利-onsubstrate),从而获得追赶的机会。chiplet和更大尺寸封装,没有头部厂商核心工艺的硬约束,国产成功率很高。 未来AI将有更多需求来自推理,这将利好国产化芯片。目前对AI的争议在于AGI是加快还是放慢了。O1除了强化学习和思维链,还在test-time compute或者inference-time compute,也就是在推理阶段分配了更多计算资源。最终结果显示,o1在科学、数学和编程等需要更多逻辑能力的任务上都有很大提升。因此,我们认为,不论预训练是否真的到瓶颈了,inference-timecompute中出现了推理计算scaling,这会让AGI更快到来。我们认为,未来推理卡能落地的商业场景,远比训练多。推理场景也给国产芯片提供了更多机会。 长期看来,芯片定义应用将转向应用定义芯片。原来是芯片定义一切,但未来会转向AI、手机定义芯片,用户需求高于一切,体验是核心,当硬件难以持续更新迭代,软硬结合和生态建设将形成竞争优势护城河。 风险提示 算力场景落地不及预期,政策变动,产品研发不及预期等。 目录 1.HBM对解决带宽墙、内存墙非常关键....................................................31.1.HBM的主要特点是高带宽、高内存密度、低功耗.............................41.2.HBM能有效解决带宽墙、内存墙.........................................................71.2.1.解决“带宽墙”问题.............................................................................81.2.2.解决“内存墙”问题.............................................................................82.AI将成为芯片国产化最大机会.................................................................92.1.AI时代对芯片需求的变化为国产化提供了机会.................................92.2.未来推理的大规模落地也将利好国产芯片..........................................113.风险提示.....................................................................................................11 1.HBM对解决带宽墙、内存墙非常关键 HBM对高性能芯片非常重要。HBM是否能成为制约高性能芯片的关键因素的讨论源自近期大摩存储空头Shawn Kim发布的报告。据财联社,Shawn自2024年7月对DRAM的看法较为悲观。Shawn Kim认为DRAM期货价格会在2025年Q1出现2年来第一次环比下降、2025年HBM竞争和供给会加强、中国不仅会有DDR5,且认为在2026年,长鑫会超越镁光成为全球第三大DRAM厂商。 HBM(High Bandwidth Memory)是一种以高带宽、低功耗为特点的存储技术。随着数字化时代的发展,计算应用日益展现出多样化的趋势,高性能计算、图形渲染、AI等应用对于计算能力的需求不断提升,传统的存储技术难以满足高速增长的计算需求,HBM应运而生。 相比于传统的平面排列,HBM运用独特的3D堆叠设计,垂直堆叠多层DRAM芯片,通过硅通孔(TSV)技术进行连接,使各层内存实现高速连接与数据传输。通过3D堆叠技术,HBM在降低物理空间占用的同时,大幅提升了带宽与容量。2.5D封装的技术,大幅降低了数据传导距离,减少了能源损耗。 图1:海力士6相RDQS方案的引入是如何有效减小外围电路尺寸 资料来源:海力士《创新设计方案带领HBM3E攀登新高峰》 1.1.HBM的主要特点是高带宽、高内存密度、低功耗 高带宽:相比于传统内存,HBM具备极高的带宽。例如,HBM2每个内存层带宽可以达到256GB/s,其实现的总带宽远超传统的GDDR5和GDDR6。通过宽总线接口与高并行性,HBM提升了数据传输效率。这种高带宽的特性,使得HBM能够满足大数据吞吐量的需求,在人工智能、图形处理器、数据中心等领域具备更高的适配度。例如,深度学习要求频繁的调取数据进行处理,HBM提供足够高的带宽支持数据的高效传输,从而加快模型训练。 图2:HBM高带宽存储器示意图 资料来源:SK海力士官网 高内存密度:相比于传统内存,由于HBM采用的3D堆叠设计,使其在更小的物理空间中实现了更大的内存容量。通过将多层DRAM芯片堆叠,降低了水平面空间的占用,提升了内存容量与内存密度。例如HBM2内存容量增加到8GB,HBM3内存容量达到了16GB。通过垂直堆叠,提升HBM内存密度,可以满足在受限物理空间的需求。例如,在移动设备和小型的服务器中,HBM的小尺寸以及高内存密度可以实现更高的性能。 图3:HBM可快速访存,高内存密度优势明显 资料来源:AMD《DPUv3E for Alveo Accelerator Card with HBM》 低能耗:传统内存面临数据传输慢,为实现高数据传输速率而消耗更高功耗,而HBM从封装上降低数据传输距离,减少数据传输过程的能量损耗。同时其具有高带宽、并行传输的特点,实现了高效传输,缩短系统的整体损耗,使其具备更高的能源效率,低能耗的特点使其在节能应用中具备更高优势。例如,数据中心需要处理大量数据,通过HBM技术可以提供高能效、低延迟的服务,提升数据中心整体运行效率。 图4:,HBM还重新调整了内存的功耗效率,能够在保持高带宽的同时降低功耗 资料来源:CXL and the developing memory hierarchy 1.2.HBM能有效解决带宽墙、内存墙 随着处理器算力与存储器容量的不断提升,传统架构遭遇瓶颈,诸如“带宽墙”“内存墙”等问题有所显现。冯诺依曼架构作为电子计算器的通用架构,以“程序存储,共享数据,顺序执行”为架构的主要特点,需要CPU从存储器取出指令和数据进行相应的计算。CPU与存储器间信息的交换速度影响了系统性能,而信息交换速度又受到存储器的影响。目前面对的核心问题是算力与带宽难以匹配,算力不断提升的情况下,在更短的距离、更密集的范围内实现匹配的带宽成为最大的难点。表现为“内存墙”“带宽墙”。HBM是缓解上述问题的最重要方法之一。 图5:冯诺依曼架构 资料来源:国泰君安证券研究 1.2.1.解决“带宽墙”问题 带宽墙指的是存储带宽限制了计算系统的有效带宽,从而降低数据搬运效率影响处理器性能发挥的现象。随着处理器核心与频率的不断提升,其计算速度不断加快,而传统内存带宽提升慢,使得处理器等待时间长,降低处理器性能。 更大规模的数据处理需求对于带宽提出了更高要求,传统内存带宽不足限制了处理器的计算能力。HBM运用独特的3D堆叠设计和宽总线,大幅提升了带宽。同时其紧凑的尺寸降低了传输距离,有效减少数据传输的延迟,降低损耗。这种高带宽的设计,显著提升数据传输效率,有助于打破计算性能瓶颈,缓解了带宽墙的问题。4378034 1.2.2.解决“内存墙”问题 内存墙指的是内存性能严重限制处理器性能发挥的现象。随着处理器核心与频率的不断提升,其在进行计算时,数据迁移所消耗的时间和能耗大于数据处理所需的时间和能耗,使得等待时间不断延长,降低处理器的性能。 处理器频率的提升要求更高的内存访问速度,传统内存的延迟无法满足处理器频繁的内存访问需求,HBM则有效缓解了需等待内存数据的问题。HBM具备高带宽、并行处理、低延迟访问的特点,其通过宽总线和多层堆叠实现高带宽,在相同的时间内传输更多数据,提升数据传输速率;通过内存模块并行工作,缓解单一通道带宽不足的问题;通过2.5D先进封装制程缩短数据传输路径,有效缩短了等待时间,提升内存访问效率,缓解了内存访问延迟的问题。 HBM具备高带宽、低延迟、低损耗的特性,帮助缓解带宽墙和内存墙这两个问题,在高性能计算、图形渲染、AI等需要大量数据并行处理的领域能显著提升整体系统的表现。例如,英伟达最新的H200GPU采用了HBM3e内存,使得内存容量提升76%,大模型性能提升90%。 随着计算需求的不断提升,HBM技术也不断发展,HBM3e内存高达141GB的容量和4.8 TB/s的带宽,传输速度高达8Gbps,并且在能效和散热方面也有所改进。HBM3e主要面向需要极高数据传输速率和大容量内存的应用场景,满足了高性能计算、AI等领域的需求。随着HBM价值被挖掘,其需求提升也将带动企业展开布局,影响相关产业的发展。 资料来源:Nvidia 2.AI将成为芯片国产化最大机会 AI将成为芯片国产化的最大机会。我们认为,目前看来,AI尚处于起步不久的阶段,其下游无论是各类具体的模型,比如语言模型不断迭代出新的版本,功能和性能持续优化调整;还是丰富多样的应用场景,从智能客服到自动驾驶等,都在快速发展且变化剧烈。相应地,上游的计算模型也在不断探索更优的算法架构以适配不同的应用需求,硬件生态架构同样如此,还未形成一套完全固定、成熟的模式。 国内芯片产业链做架构创新。访存方面,当遇到访存能力不足的问题时,国内厂商采取了一些创新举措。比如做大Rack(机柜),通过扩大整体的存储架构规模来提升访存能力,以满足AI应用对大量数据快速访问和存储的需求。此外,国内厂商还尝试存算分离的模式,将存储和计算功能进行更合理的拆分与布局,使得各自能更高效地发挥作用,进而提升整体的访存及计算效率。制程方面,在制程暂时难以达到最先进水平的情况下,巧妙地利用chiplet(小芯片)技术,通过将多个小芯片进行叠加,形成die to die(芯片到芯片)互联的方式。这样既能在一定程度上弥补制程上的不足,又能利用小芯片各自的优势进行灵活组合,实现性能的提升,更好地适配AI产业快速发展变化的需求。 2.1.AI时代对芯片需求的变化为国产化提供了机会 我们认为,AI时代对芯片需求的变化,也为国产化提供了更多的机会。先进制程想追赶头部厂商及其困难,但封装技术持续迭代更新的过程中,鉴于其更