您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [至顶智库]:2026全球AI算力发展研究报告 - 发现报告

2026全球AI算力发展研究报告

信息技术 2026-05-28 - 至顶智库 徐雨泽
报告封面

报告背景 当前,全球算力产业正迈入“智算驱动、体系重构”的全新发展阶段。伴随“词元经济”的兴起,算力已成为支撑国家技术突破、产业竞争与战略布局的关键基础要素。在此背景下,AI芯片、AI工作站、AI服务器及AI算力中心等关键领域迎来重要突破。面向大模型训练与推理需求,AI芯片正围绕GPU、TPU、NPU等多元方向持续演进,异构计算、高速互联及软件栈生态加速完善;AI工作站向专业化与多样化方向发展;AI服务器向集群化及高速互联架构升级;AI算力中心则进入以超大规模计算集群和绿色低碳为特征的新阶段。AI算力基础设施正从传统信息技术支撑逐步演变为驱动科技创新与工业革命的战略性底座。 在此背景下,中国智能计算产业联盟、国家超级计算天津中心、天津市人工智能学会、深圳市人工智能行业协会、至顶科技、至顶智库联合发布《2026全球AI算力发展研究报告》。报告从智能时代的算力跃迁出发,全面总结全球AI算力的发展背景、关键环节(AI芯片、AI工作站、AI服务器以及AI算力中心)、应用场景,对算力产业的关键领域、核心技术进行分析解读。最后,报告展望AI算力未来发展趋势。报告为决策部门、行业从业者、教育工作者以及社会公众更好了解全球人工智能算力的发展情况提供参考。 2026年5月 2026全球算力产业十大趋势 异构算力架构从“CPU+GPU”为主向“CPU+GPU+XPU”多元发展路线演进,有望成为智能算力时代的主流技术范式。 中国算力产业发展从单点技术突破迈向全栈体系协同,国家产业生态不断成熟,地方产业布局重点突出。 超节点与高速互联有效提升算力效能,将成为全球构建新型算力基础设施的重要路径。 伴随“龙虾”等多智能体框架出现,AI应用从交互智能迈向执行智能,催生新的推理算力需求。 算力赋能经济社会发展的边界不断拓展,从科学智能、具身智能等前沿领域向工业、交通、能源等行业全面渗透。 2026全球算力产业十大趋势 伴随具身智能与世界模型的快速发展,多模态数据持续增加,拓展智能应用边界,激发潜在算力需求。 算力呈现“云-边-端”协同发展趋势,算力中心与边缘端侧AI设备协同,满足各类场景应用需求。 新能源推动算力中心能源供给方式变革,风光储一体化、核能、氢能将成为未来实现低碳算力的发展方向。 太空算力借助空间能源、广域覆盖等独特优势,有望成为提供超智融合计算服务的新型算力基础设施。 词元消耗量将成为衡量一国智能化发展的重要指标,算力作为支撑词元经济发展的重要基础,重塑未来经济发展模式。 开篇:智能时代的算力跃迁 近年来,人工智能实现跨越式发展,先后完成从深度学习时代到生成式AI时代的演进,当前正稳步迈向智能体与具身智能时代。为支撑人工智能的发展需求,算力生态的核心环节—芯片、整机与计算集群均实现性能的全面升级。芯片算力由TFLOPS量级提升至数十PFLOPS,整机部署形态从单机八卡演进为千卡级超节点架构,计算集群规模从千卡集群拓展至数十万卡集群,集群功耗从千瓦级提升到吉瓦级。 智能体与具身智能时代 开篇:智能时代的算力跃迁 在数据准备阶段、模型训练阶段、模型推理阶段的各环节均产生算力消耗,各阶段算力消耗的量级差异明显。在模型预训练阶段,超大规模的模型预训练需要多达万卡级算力支撑;模型推理阶段超大规模模型需要千卡算力;数据准备阶段算力需求相对较低,需要数十到数百卡算力规模。 报告目录 第一章全球AI算力发展背景及产业概况 第二章全球AI芯片发展情况 第三章全球AI工作站及服务器发展情况 第四章全球AI算力中心发展情况 第五章AI算力典型应用场景 第六章AI算力产业发展趋势 第一章全球AI算力发展背景及产业概况 技术驱动:推理模型与Agent发展驱动算力迭代 需求驱动:经济发展与社会进步共同拉动算力需求 政策支撑:全球政策持续加码算力基建投资 全球AI算力图谱、算力产业生态、算力概念梳理 1.1技术驱动:ScalingLaw持续演进,推动算力规模扩张 ScalingLaw持续演进正加速AI算力规模增长。随着模型参数规模、训练数据量和计算量持续扩展,模型性能显著提升。根据EpochAI数据统计,模型训练所需的算力规模走势从平缓演变为指数级上升。Scaling Law使“扩大规模”成为推动模型能力提升的重要路径,直接驱动算力基础设施的扩张,进一步带动全球在高性能AI芯片研发、大规模AI算力中心以及算力集群建设的持续投入。 1.1技术驱动:训练消耗算力规模影响模型性能表现 AI模型演进推动训练与推理阶段的算力需求。根据Artificial Analysis指数表现,前沿模型在迈向更高智能水平的过程中,普遍需要更强的训练算力和更高推理资源投入。尽管不同模型在训练消耗算力及Token使用量上存在差异,但高性能AI模型更多分布于高算力、高Token消耗区间,表示模型性能提升仍建立在高算力基础上,训练与推理两端的算力需求仍将持续增长。 来源:Artificial Analysis,Epoch AI,至顶智库整理绘制 1.2需求驱动:经济发展与社会进步共同拉动算力需求 AI算力作为推动一国创新发展的关键要素,将为全球经济发展注入澎湃动能,而经济发展与社会进步的愿景也将拉动算力需求。伴随各行业智能化转型程度不断加深,推理场景对于算力的需求显著提升,各类终端对于本地AI算力的需求持续增加,前沿科学研究也需要高性能算力支撑。在此背景下,全球各国不断加大算力产业的投入力度,紧抓未来发展的重要机遇。 智能转型快速推进 推理场景需求增加 随着各行各业加速向智能化转型,人工智能技术的应用场景日益丰富,推动各行业对算力的需求不断上升。如金融、医疗、制造等行业广泛采用AI进行数据分析、智能决策和自动化生产,相关应用需要强大的计算支撑。 人工智能发展从模型训练到场景应用方向转型,推理算力需求呈现爆发式增长。伴随智能体等应用呈现规模化落地,推理任务从辅助环节提升为AI算力的核心负载,消耗计算量持续攀升。 科学研究持续突破 智能终端加速落地 在科技创新发展战略推动下,国家在生物医药、新材料、航空航天、量子信息、深海深空探测等前沿科技领域取得研发突破,高度依赖超算及高性能算力的支撑。 智能手机、智能汽车、智能安防等终端设备对本地AI计算的需求也在快速增加。如智能汽车需要实时处理复杂的传感器数据,以实现智能驾驶决策,因此边缘计算场景对于算力的需求不断攀升。 1.3政策支撑:全球主要国家及地区出台政策,持续加码算力基建 1.6算力核心概念解析—浮点精度 浮点精度是指计算机浮点数表示和计算时所能达到的精确程度。Floating Point(FP)表示浮点精度,由符号位、指数位和尾数位三部分组成。其中,符号位用于表示数值正负;指数位决定小数点位置,控制数值范围;尾数位表示数值的有效数字,控制数值精度。FP8和FP32作为常见的浮点精度,FP8适用于对效率和部署成本有需求的场景,FP32则具有更高精度和更强数值稳定性。 浮点精度构成示意图 符号位指数位(4 bit)尾数位(3 bit) 1.6算力核心概念解析 1.6算力核心概念解析—稀疏计算 稀疏计算核心特点是跳过零值运算仅处理非零有效数据,大幅降低计算量与内存消耗,提升运算效率。在常规稠密矩阵乘法中(如下图左半部分),矩阵的每一个元素均需要进行完整的两轮乘加运算,整体计算量大。而稀疏计算会先对权重矩阵做稀疏化处理,同时用专门的索引矩阵(如下图紫色部分)记录保留元素的位置信息。在实际推理运算时,只会选取和权重位置对应的输入元素参与计算,整体计算量减少一半。 1.6算力核心概念解析—纵向扩展&横向扩展 在算力中心架构中,ScaleUp与ScaleOut分别从硬件升级与节点扩张两个维度,构成支撑算力系统能力的核心机制。ScaleUp(纵向扩展)通过提升单节点的硬件配置(如CPU、GPU、内存等)增强单台设备的系统能力,以高效率处理复杂任务,追求极致性能;ScaleOut(横向扩展)是通过增加节点来分担负载,本质上是用多台设备分担任务,其核心价值在于提供扩展空间和高可用性。 1.6算力核心概念解析—算子库 算子库(Operator Library)是人工智能与高性能计算领域的核心基础软件,将深度学习、高性能计算中最常用的底层计算单元(如矩阵乘法、卷积、激活函数)封装为高度优化的可调用函数集合,是连接上层AI框架(如PyTorch、TensorFlow)与底层硬件(GPU/NPU/CPU)的关键桥梁。算子库覆盖全场景算力需求:以通用矩阵乘法MatMul(GEMM)为核心的基础数学运算为AI计算筑牢根基;Conv2D/3D、Pooling等神经网络算子支撑经典网络构建;FlashAttention、PagedAttention等注意力机制是大语言模型高效运行的核心;ReLU、GELU等激活函数为模型引入非线性能力,全方位支撑AI全链路计算。算子库主要构成 1.6算力核心概念解析—芯片互联 芯片互联是指芯片内部或芯片之间实现信号、电源和数据传输的物理与逻辑连接技术。芯片互联带宽则是在芯片之间或芯片内部不同模块之间,数据传输的速率或容量。该指标反映芯片间通信通道在单位时间内能够传输的数据量大小,是衡量芯片互联性能的关键指标之一。根据层级分类,互联方式主要分为三个层面:片内互联(芯片内部,微米至毫米级)、片间互联(同一服务器机箱内,厘米级)、节点间互联(跨机柜或数据中心,米级至千米级)。芯片互联方式主要类型 片间互联 片内互联 •含义:同一块服务器主板上,GPU与GPU、GPU与CPU互联•NVLink 4/5:H100 900GB/s;Rubin 3.6TB/s•PCIe 5.0 x16:128GB/s•PCIe 6.0 x16:256GB/s•PCIe 7.0 x16:512GB/s •含义:单芯片内部多个计算核、存储核之间互联•UCIe 3.0:64GB/s,x16单向约1.28TB/s•3D混合键合(Hybrid Bonding):间距<1μm,带宽密度>300TB/s/mm2•NVLink-C2C(NVIDIA):Blackwell架构1.8TB/s/芯片•Infinity Fabric(AMD):MI300系列~1.5TB/s 节点间互联 •含义:多台服务器组成算力集群互联•InfiniBand NDR:400Gbps(~50GB/s)•InfiniBand XDR:800Gbps(~100GB/s)•UALink 1.0:200GB/s 1.6算力核心概念解析—KVCache键值缓存 KVCache(全称Key-Value Cache,键值缓存)是大模型推理优化中的关键技术。该技术通过在模型推理的预填充阶段计算并存储所有输入Token的K和V向量,后续在生成新token时,只需计算Q向量,从缓存中读取历史K和V向量,即可完成注意力计算。该技术避免重复计算,从而使计算复杂度下降,提升模型的推理效率。 1.6算力核心概念解析—首Token生成时间&Token吞吐量 首Token生成时间(Time To First Token)是衡量大模型回复响应速度与用户体验的核心指标。TTFT具体是指从用户发送提示词(t=0)到模型返回第一个输出Token(t=TTFT)的时间间隔。完整流程如下:用户输入提示词后,系统将文本转换成模型能处理的Token形式。随后Token被送入GPU进行计算。GPU执行初始提示词处理(对用户输入的提示词进行编码、上下文理解和注意力计算),该阶段通常是TTFT中非常关键的部分。随后进入解码/生成阶段,开始逐步生成输出内容。基于预填充阶段的结果,生成模型的第一个输出Token。后续将模型生成的Token还原成可读的文本形式,最终输出给用户文本片段。Token吞吐量表示单位时间内模型输出的Token数量,单位为Token/s,是评估大模型推理性能的核心指标。吞吐量越高,意味着基础架构的回报越高。