您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中泰证券]:中泰电子AI系列之国产算力:2026关注1-N放量 - 发现报告

中泰电子AI系列之国产算力:2026关注1-N放量

电子设备 2026-02-06 中泰证券 郭生根
报告封面

【中泰电子】AI系列之国产算力:2026关注1-N放量 分析师: 王芳S0740521120002,杨旭S0740521120001,李雪峰S0740522080004 目录 一、算力芯片:GPU vs ASIC 二、国产趋势一:算力自主可控是确定方向三、国产趋势二:大厂自研芯片是必经之路四、国产趋势三:芯片逐渐由单卡走向系统集成五、投资建议&风险提示 1. GPU与ASIC是算力两大支柱 GPU芯片与ASIC芯片是算力解决方案的两大支柱:AI芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用的计算任务(其他非计算任务仍由CPU负责)。当前主流的AI芯片分为三类——GPU、FPGA、ASIC,GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片,其中GPU并行计算能力强,在AI训练和推理场景应用最多,ASIC属于为AI特定场景定制的芯片,具有较佳的性能和能效比,和GPU构成目前AI芯片的两大核心。 GPU适用于AI计算,相比于传统GPU主要执行图形之外的通用计算任务,利用GPU的并行计算优势,加速科学计算、大数据分析、深度学习等领域,尤其在大规模并行计算时,比传统CPU更为高效。 ASIC芯片适用于推理:ASIC芯片设计目的是高效处理特定算法,通过针对特定任务进行硬件优化,其能够最大限度利用硬件资源实现高性能计算,同时保持极低功耗,因此ASIC芯片在AI推理等任务中表现出色。 1.1 GPU:专为AI计算优化设计 nGPU专为通用并行计算任务设计,具有高度并行性、高内存带宽与多级缓存的特征:1)高度并行性:拥有大量并行计算单元,多条流水线可在单一控制部件的集中控制下运行;2)高内存带宽:通常集成高速的GDDR或HBM显存颗粒,提供高访存带宽以处理数据密集型运算;3)多级缓存:包括全局内存、共享内存、寄存器等,大幅提高数据访问效率、降低延迟。 nGPU广泛应用于AI计算、深度学习训练等领域:GPU主要进行非图形相关程序的运算,如科学模拟、数据分析、机器学习、高性能计算,广泛应用于科学计算、深度学习训练等场景。 n相较于NPU、TPU等AI芯片,GPGPU通用性更强、生态壁垒和开发难度更低:GPGPU采用SIMT架构可实现“开箱即用”,NPU/TPU仍沿用传统SIMD架构,需手动编排流水线,时延隐藏效率远不及SIMT,导致编写高性能内核难度大、效率低,既难以实现易用性,生态完善程度也落后于GPGPU。 1.1.1英伟达是GPU领先企业,其架构持续迭代升级 n英伟达作为GPU的代表企业,其架构经历了Volta(12nm)→Ampere(7nm)→Hopper(4nm)→Blackwell(4nm)迭代,新一代Rubin(3nm)架构将于26年下半年推出,随AI持续迭代的过程也伴随形态、价值量快速提升。 1.1.1GPU:以NV为例,Tensor Core是核心 nTensor Core(张量核心)专为深度学习和Transformer加速设计:矩阵乘加(MMA,D=A*B+C)是深度学习训练和推理中最核心的操作,而Tensor Core作为专用张量加速单元,能以矩阵块为单位在较短时间内完成大量矩阵乘加运算,这种并行计算方式显著加快神经网络模型的训练和推断过程;同时采用混合精度计算(如用半精度FP16作为输入和输出,利用全精度FP32存储中间结果,确保计算精度的同时最大限度地提高计算效率)。 1.1.1GPU架构演进的核心:Tensor Core n英伟达GPU产品架构迭代本质主要是Tensor Core的不断升级,架构由Volta演进至目前的Blackwell,Tensor Core经历了1.0至5.0的版本升级。n下面我们逐一分析架构的演进情况,首先是由V100至A100,见下图: 1.1.1GPU架构演进的核心:Tensor Core nA100→H100核心升级点在于:引入线程块集群概念(4 SMs同时执行指令,性能显著提升且共享内存)+TMA(实现数据加载和计算的解耦,提升并行效率)+FP8精度。 1、算术规模——H100新增线程块集群(Thread BlockCluster),4个SM组成一个集群:1)支持4个warp组成group、相当于4个SM为一组集体执行指令,性能表现明显提高;2)允许跨SM(一个集群里的4个SM)数据共享与低延迟通信,形成分布式共享内存(DSMEM) 2、引入TMA(张量内存加速器)—— TMA能进行全局与共享内存间的批量异步数据输送:A100线程需参与地址生成、数据搬运,影响计算效率→H100引入TMA可以实现数据加载与计算的解耦,大幅提升TC利用率;3、引入FP8精度——吞吐量是FP16/BF16的2倍,占用的内存空间是其一半。 1.1.1GPU架构演进的核心:Tensor Core nHopper→Blackwell核心升级点在于:引入双die设计(TC指令拓展至2 SMs、实现算力翻倍)+低精度浮点类型丰富(如MXFP4和NVFP4)+引入TMEM(彻底取代RF、降低功耗和延迟)。 1、Blackwell采用双die设计,将TC指令扩展至2个SM(实现算力翻倍)——引入CTA Pair机制:Blackwell允许两个CTA(即2 SM)共享操作数,降低内存带宽需求,且将M矩阵维度翻倍(128翻倍至256);2、新增MXFP系列微缩放浮点格式(MXFP8/6/4)和NVFP4格式,并大幅削减FP64吞吐量,在Blackwell Ultra中进一步降低INT8计算能力,凸显低精度浮点类型的绝对优先级;3、指令简化:单线程即可发起MMA操作,而Hopper需all warpgroup集体发起指令;4、引入TMEM(张量内存):存储MMA操作数(A/D),彻底取代RF,释放线程寄存器空间用于其他工作。 来源:英伟达官网,SemiAnalysis,中泰证券研究所 1.1.1GPU架构演进的核心:Tensor Core n提升计算效率、优化内存、支持更低精度是主要目标。在NVIDIA张量核心的演进历程中,其规模与内存系统的迭代始终围绕提升计算效率与缓解数据移动瓶颈展开,同时在精度上持续丰富低精度浮点类型、提高低精度算力优先级。 1.1.1Tensor Core硬件与CUDA软件绑定构筑英伟达生态壁垒 CUDA与NVIDIA GPU的Tensor Core等硬件深度绑定,CUDA-X库(cuBLAS、cuDNN、TensorRT)针对自身硬件做极致优化,TensorCore硬件迭代会同步更新CUDA特性,形成“硬件强→软件优→应用好”的正向循环,建立并巩固其生态壁垒。在深度学习训练中,TensorCore专门针对矩阵乘加运算进行硬件加速,而CUDA则负责将矩阵运算任务合理地分配到Tensor Core上执行,两者紧密配合大幅提升了英伟达GPU产品性能及应用模型的训练效率;随着Tensor Core的持续迭代,CUDA也在不断更新以充分发挥硬件性能(最新一代CUDA已升级至13.1),这种硬件与软件的深度融合和协同创新,形成“性能提升→更多应用→更多开发者→更多优化→更高性能”的良性循环,并构筑英伟达的生态壁垒。 ØTensorRT:深度学习推理优化工具,用于加速推理过程。TensorRT依赖于CUDA和cuDNN,通过模型量化、层融合、内核自动优化等技术提升推理速度。 ØcuDNN:深度学习专用库,针对卷积、池化、激活函数等神经网络操作进行硬件级优化,是主流深度学习框架的“性能底座”。 ØcuBLAS:线性代数库,实现矩阵乘法、向量运算等BLAS标准接口,优化程度极高(如采用张量核心加速),是深度学习框架的核心依赖。 1.1.1Tensor Core硬件与CUDA软件绑定构筑英伟达生态壁垒 n软件本质是为硬件服务,因此Tensor Core迭代的同时CUDA也在同步更新以更好适配硬件,两者绑定配合提升产品性能并巩固英伟达的生态优势。以25年12月发布的最新一代CUDA 13.1为例: CUDA Tile是最核心的更新,其简化了编程难度并兼容当前(Blackwell)及未来的GPU架构:在AI领域张量已成为一种基础数据类型,Tensor Core(TC)和TMA已成为新GPU架构中必要的组成部分;硬件越复杂就越需要软件的支持,因此CUDA Tile对TC及其编程模型进行了抽象,引入了一种比SIMT层级更高的新型GPU编程方式——基于tile的编程模型,其能够以更高的层次编写算法,屏蔽了调用Tensor Core等专用硬件的底层细节,开发者无需在逐元素的层面上设定算法的执行细节,编译器和运行时将处理这些工作,且Tile代码将能够兼容未来的GPU架构。 增强对低精度的支持如FP4/FP8/BF16,提升推理性能:CUDA 12.9在英伟达Blackwell平台上引入了块缩放的FP4/FP8矩阵乘法,CUDA 13.1进一步增加了对上述数据类型和BF16的性能支持;“块缩放低精度计算”配合Blackwell硬件特性,在大模型深度学习场景中较H200性能提升数倍。 CUDA Tile IR是AI编译器基础架构:其专注于tile级别的计算,该粒度可以充分利用复杂的内存层次结构,最大限度提高GPU吞吐量;同时使编程加速更简便,显著降低了开发门槛,巩固了英伟达生态系统的优势。 来源:机器之心,月亮动物园,中泰证券研究所 1.2 ASIC:专业的AI定制芯片 n相较于GPU,ASIC芯片在业务逻辑确定且需求量较大的场景下具备高能效、低功耗、降成本的优势。以英伟达GPU芯片和美国四大云商自研ASIC芯片对比为例,1)功耗方面:ASIC芯片功耗明显低于GPU芯片,谷歌最新发布的TPU v7功耗约为GB200的35.5%;2)能效方面:虽然ASIC与GPU在算力水平上仍存在一定差距,谷歌TPU v7算力约GB200的46.1%,但结合功耗后其能效比优于GB200(较GB200能效比提高26.3%),亚马逊及其他云商ASIC芯片能效比较英伟达系列芯片均处在较优水平;3)成本方面:云商通过设计服务厂商自研ASIC芯片相较于直接外采英伟达GPU芯片可以明显降低成本,几大龙头ASIC设计厂商(Broadcom、Marvell)产品平均销售价格约5000-6500美金,较GPU芯片降本50%-60%,同时由于ASIC定制化的特点,随着需求提升、其规模效应有望提高,成本优势更加凸显。 1.2.1谷歌TPU:ASIC代表产品 n谷歌由15年部署首款TPU产品,之后持续迭代,最新一代为TPU v7(lronwood)。n谷歌TPU Chip的核心有Tensor Core、HBM和ICI——1.Tensor Core:计算单元。包括最主要的MXU矩阵计算单元,用来执行大规模矩阵乘法,相当于NVIDIA GPU的“Tensor Core”,MXU采用脉冲阵列架构,其每个处理单元(PE)执行小型计算(如乘积和累加)并将“结果/输入”传递给相邻PE;此外还有VPU向量计算单元。2.HBM:高速存储单元。3.ICI:芯片之间高速互联单元。 注:红框的TPUv3 only表示v1、v2架构里每个Tensor Core中只有1个MXU,而TPUv3中有2个,后续v4、v5、v6升级为4个MXU,v7又回到2个。 1.2.1谷歌TPU架构演绎:v2→v7 nTPU架构演进的核心在于MXU数量和规模、HBM容量和带宽、Die的数量和拓扑及ICI互联的进化。 v2:每个Chip包含2个Tensor Core和16GB HBM2—— v3:每个Chip包含2个Tensor Core和32GB HBM2—— Ø2个Tensor Core:每个Tensor Core含1个MXU,一次可以完成128x128个16-bit的乘加操作,总算力45.9TFLOPs。Ø16GBHBM2:2个8GB Stack,带宽共600GB/s。ØICI互