您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国信证券]:大模型驱动算力变革,国产算力迎增量机遇 - 发现报告

大模型驱动算力变革,国产算力迎增量机遇

信息技术 2026-06-16 国信证券 落枫
报告封面

行业研究·行业专题 电子·半导体 投资评级:优于大市(维持) 证券分析师:叶子0755-81982153yezi3@guosen.com.cnS0980522100003 证券分析师:连欣然010-88005482lianxinran@guosen.com.cnS0980525080004 证券分析师:胡慧021-60871321huhui2@guosen.com.cnS0980521080002 证券分析师:张大为021-61761072zhangdawei1@guosen.com.cnS0980524100002 证券分析师:詹浏洋010-88005307zhanliuyang@guosen.com.cnS0980524060001 大模型驱动算力变革,国产算力迎增量机遇 l当前算力需求正从前期的“模型训练”加速向规模化落地的“应用推理”侧外溢。随着摩尔定律边际效应减弱,算力竞争的核心已从传统的“单芯片峰值性能提升”全面转向“芯片、软件生态与系统级集群的综合效率优化”。在海外高端芯片销售受限的背景下,国内信创需求与大模型迭代共振,推动本土AI芯片厂商加速适配并放量,国产算力全栈生态迎来增量机遇。 lAI计算异构化与系统级协同,芯片竞争从峰值性能转向综合效率:海外大模型(如OpenAI、Google等)保持每半年一代的高频迭代,追求智能化升级;国产大模型在经历了技术蓄力后,自2025年起以DeepSeek-R1、智谱GLM等为代表的产品迭代显著提速,中美已成为全球大模型供给的两大核心。随着AI应用规模化落地,针对推理基础设施的投资规模从2024年开始超越训练侧,推理侧更强调高吞吐、大并发以及成本性能的平衡。AI算力产业正从“单芯片性能提升”转向由芯片、先进封装、高带宽存储(HBM)、编译框架、液冷及大规模集群构成的系统级协同优化。AI系统本质是异构计算体系:CPU负责通用调度,GPU承担大规模并行通用加速,而TPU/NPU等ASIC芯片则在特定模型和推理降本中发挥效率优势,形成百花齐放的长期共存格局。 l海外芯片龙头从单芯片竞争走向平台化交付:英伟达依托GPU、CUDA生态、NVLink和Blackwell整柜系统,将单芯片竞争扩展为“芯片+网络+软件+系统”的平台竞争;谷歌以TPU为核心服务自有模型(如Gemini)和云客户;AWS则通过Inferentia和Trainium两条ASIC产品线将云端AI成本拆解,降低单位训练与推理成本。 l国产算力适配与信创共振:国内信创市场正从传统的通用算力国产替代(CPU、操作系统等)转向智能算力基础设施升级。2026年5月,国家首次在安全可靠测评中设立专门AI芯片品类,华为海思、平头哥、海光信息、壁仞科技、摩尔线程等9款国产芯片获评安全可靠等级Ⅰ级,正式纳入信创体系。国产算力的焦点不只是单卡峰值,而是“芯片+ HBM +互联+服务器+编译器/算子库+推理引擎+模型适配”的全栈效率。未来随下游国产云计算厂商、运营商等需求打开,国产算力芯片有望持续持续增长。 目录 大 模 型 加 速 迭 代 , 算 力 需 求 从 训 练向 推 理 扩 散 国 产 大 模 型 与 信 创 需 求 共 振 , 推 动 国 产 算 力 加 速 适 配放 量04 大模型发展趋势——更智能、更快捷、更便宜 l自2022年11月ChatGPT发布以来,生成式AI逐渐从专业领域走向大众视野。随着GPT-4多模态功能的推出和英伟达H系列芯片的起量,使得2023年被视为人工智能产业的重要转折点。 l海外大模型追求智能化升级。自2023年以来,OpenAI、Anthropic、Google、Meta、xAI等海外大模型厂商保持高频迭代,部分厂商保持每半年一代的迭代速度,通过算力扩充和算法优化来持续推动产品智能化升级和丰富度提升。 大模型发展趋势——更智能、更快捷、更便宜 lDeepSeek推动国产大模型崛起。受高端芯片供给约束,2023-2024年的国产大模型迭代速度放缓。但随着DeepSeek-R1的横空出世,2025年开始国产大模型迭代提速,产品丰富度提升。 大模型发展趋势——算力需求从训练侧外溢至推理侧 l算力需求从训练侧外溢至推理侧。大模型发展之初,行业聚焦于大模型训练以占据市场领先地位。2022-2024年AI基础设施投资更多聚焦模型训练侧,基础设施技术栈重点在于打造千卡万卡级算力集群,确保训练过程稳定性,优化从硬件到AI开发框架到模型侧技术栈提高算力效率。随着模型应用规模化落地,AI算力需求由训练侧向推理侧外溢。据IDC,针对推理基础设施投资规模2024年开始超越训练侧。推理侧更强调高吞吐、大并发以及成本性能平衡。推理芯片需求增速更快,预计推理收入2024-2028年CAGR=14.3%,训练收入2024-2028年CAGR=13.8%。 大模型发展动力——全球算力建设资本开支持续加大 l算力的扩充规模决定了大模型智能化的上限,海外大模型厂商持续加大AI资本开支来保障其产品的领先性。根据Marvell指引,2025-2028年全球AI算力资本开支仍将保持20%的年均增速成长。云服务商加快自身的AI基础设施投资。2025年谷歌、亚马逊资本开支总额领先,进入2026年预计谷歌(Alphabet)预计资本开支有望达1800-1900亿美元;Meta预计资本开支为1250-1450亿美元;亚马逊预计资本开支为2000亿美元。 AI大模型驱动的产业链升级需求 训练侧的算力需求:更大规模、更高吞吐、更强互联将模型训练出来推理侧算力需求:更低延迟、更高并发、更低成本将模型持续服务出去 AI五层蛋糕 lAI不是单一技术或产业,而是一套从底层资源到上层应用逐层链接的基础设施体系,是一块五层“蛋糕”:能源→芯片→基础设施→模型→应用。 算力芯片:更大存储、更稠密算力、更大带宽 l从芯片来看,以英伟达的芯片技术路径为例,更大的存储量、更强的稠密算力能力、更大的带宽速度是算力芯片一直以来的迭代方向。 算力发展趋势——互联端 l愈发“才思敏捷”的人工智能需要更强的算力支撑,而算力的升级并不局限于芯片制程升级,而是机柜级、集群级的整体化技术迭代。为了突破集群算力的瓶颈,互联技术沿着Scale-out(集群级升级)和Scale-up(机柜级升级)两个方向发展。 ü从集群来看,随着大模型参数的持续扩张,算力集群规模越来越大。128节点的超级集群可由32个叶交换机和16个脊交换机构成,且交换机间需要较高的传输速度来满足快速通信需求。为了满足日益提升的传输速度需求,CPO技术和PCB材料的升级成为重要方向。 资料来源:Marvell,国信证券经济研究所整理 目录 大 模 型 加 速 迭 代 , 算 力 需 求 从 训 练 向 推 理 扩 散 国 产 大 模 型 与 信 创 需 求 共 振 , 推 动 国 产 算 力 加 速 适 配放 量04 AI大模型驱动的算力需求不断提升 l模型计算需求提升推动硬件峰值性能提升,系统效率成为关键。机器学习硬件的峰值计算性能随着产品迭代呈指数级增长。算力需求的增长速度已经超过传统摩尔定律的节奏。传统芯片依靠制程升级实现性能提升的边际效应正在减弱,而大模型训练、推理、多模态和Agent应用持续推高算力需求。我们认为,AI算力产业正从“单芯片性能提升”转向“系统级协同优化”:一方面,GPU/NPU、Chiplet、先进封装和高带宽存储成为硬件升级重点;另一方面,算子库、编译器、推理框架、并行训练和集群调度的重要性提升。中长期看,算力竞争将不再局限于芯片峰值性能,而是取决于芯片、软件生态、服务器、网络互联、液冷和大规模集群的综合效率。 算力芯片的演进——通用计算→并行计算→矩阵加速→系统级算力 计算芯片演进方向:通用计算→并行计算→矩阵加速→系统级算力 AI应用带动算力从通用算力到智能算力演进 l通用算力以CPU为算力核心,智算算力采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等多种芯片形成高并发分布式计算系统,应用于神经网络模型的训练及推理。大模型训练的效率和成本最优的诉求要求智算中心建立高度集中化的GPU集群。基于GPU分布式工作原理,在更小的物理空间内部署更多的GPU服务器,可以突破分布式计算因带宽和传输距离产生的运算瓶颈,提高集群算效,从而减少大模型的训练时间同时降低训练的成本。 lAI系统的本质是异构计算系统:AI需求推动下,计算芯片演进不是线性替代,而是围绕不同计算任务的分工深化。 AI应用带动算力从通用算力到智能算力演进 lAI需求推动下,计算芯片的演进并不是简单替代,而是不同架构围绕不同任务形成分工。CPU擅长通用计算、逻辑控制和系统调度,是计算体系的基础;GPU依靠大规模并行计算能力,适合神经网络训练和推理中的矩阵、向量运算,成为AI时代的重要加速器;TPU、NPU等ASIC芯片则针对张量计算、矩阵乘和特定AI算子做专门优化,在能效比、成本和特定场景性能上具备优势。 lAI系统更像是异构计算体系:CPU负责调度,GPU承担灵活的大规模加速,TPU/NPU在特定模型、推理和边缘场景中发挥效率优势。随着AI应用持续扩展,计算芯片将呈现长期共存、各司其职、百花齐放的发展格局。随着AI应用从训练扩展到推理、从云端扩展到边缘、从通用大模型扩展到行业模型,不同芯片路线会在性能、成本、功耗、生态和可编程性之间形成差异化竞争。最终格局更可能是CPU、GPU、TPU、NPU及各类AI ASIC长期共存,构成百花齐放的异构算力生态。 目录 大 模 型 加 速 迭 代 , 算 力 需 求 从 训 练向 推 理 扩 散 国 产 大 模 型 与 信 创 需 求 共 振 , 推 动 国 产 算 力 加 速 适 配放 量04 算力芯片竞争已经从“单芯片跑分”转向“系统交付能力” l海外AI芯片竞争已从单颗芯片性能比拼演进为芯片、互联、软件、云服务、整机系统的综合交付能力竞争。英伟达依托GPU、CUDA、NVLink和整柜系统构建通用AI算力平台;谷歌以TPU为核心,服务自有模型和谷歌云客户;AWS通过Inferentia和Trainium将训练和推理成本拆解到云实例和自研ASIC体系中。GPU仍是前沿大模型训练和通用推理的重要底座,ASIC在云端降本和规模化部署中持续提升价值。 英伟达:从GPU供给扩张,走向AI数据中心整体效率提升 l英伟达的AI芯片发展始于GPU通用计算。1999年GeForce推动图形处理器普及,2006年CUDA发布,使GPU可用于深度学习等并行计算。2012年AlexNet借助英伟达GPU取得突破,AI训练需求快速增长。此后,英伟达从游戏GPU转向数据中心AI芯片,推出Tesla、Volta架构V100,并加入Tensor Core,大幅提升矩阵运算效率。2020年前后,A100成为大模型训练核心硬件;随后H100进一步强化Transformer计算、互联和能效,支撑生成式AI爆发。近年英伟达继续推出更高性能的Blackwell系列,并通过NVLink、InfiniBand、CUDA生态和整机系统,把单颗芯片竞争扩展为“芯片+网络+软件+系统”的平台竞争。 l趋势:性能从通用并行计算走向AI专用加速;应用从图形渲染转向数据中心和大模型;竞争重心从单芯片算力转向集群规模、能效、带宽和软件生态。 A100:数据中心GPU统一训练、推理、数据分析 谷歌:从内部推理ASIC,演进为训练与推理兼顾的云端TPU平台 l谷歌AI芯片发展以TPU为主线。2016年谷歌为搜索、翻译、推荐等内部AI任务推出第一代TPU,重点提升深度学习推理效率。随后TPU v2、v3开始支持大规模训练,逐步服务于Google Cloud客户。2021年前后TPU v4强化集群互联,适合更大模型训练;TPU v5e、v5p分别面向性价比和高性能训练及推理。2024年发布第六代Trillium,服务G