AI智能总结
1 •智算中心的成本与能耗:智算中心成本结构正呈现出“重资本、强能耗、轻配套”的非均衡态势,其中以H100为代表的GPU集群构成初始投入核心,占比超过85%,形成高算力密度驱动下的设备集约型模型;但该结构亦带来显著后期能效负担,运行支出中电力消耗、冷却成本与高可靠运维投入成为OPEX主导项,年支出逼近初始成本的15%。在此背景下,能源成本的构成深度映射出热功耗路径瓶颈——IT设备与制冷系统合计占据能耗94%,其中制冷消耗高达27%,已成为PUE优化的临界短板。供电与照明系统边际能耗占比极低,显示其优化空间有限,当前制冷链路正成为能效结构升级的首要抓手,技术演进方向需围绕“冷却-算力-负载”三者的深度联动,向液冷分布式、电源耦合式、节点级温控等新架构演进,重塑TCO控制逻辑与能源治理体系。•制冷技术PUE发展趋势:数据中心制冷技术正由传统风冷向液冷跃迁,液冷以系统级能效最优和高热密支撑能力,成为满足下一代智算中心PUE控制红线的核心路径。•供电系统发展趋势:数据中心供电体系正由静态供电网络向智能化、高冗余、高响应性的多级能质协同架构升级,UPS在其中承担电能治理与系统耦合的核心职能。摘要—— 研究目的本报告旨在系统梳理中国智算中心在能耗结构、成本构成、区域布局、参与主体、电力需求及PUE演进等方面的发展趋势,揭示“算力–能源–架构”耦合背景下的核心矛盾与演化路径。研究区域范围:全球和中国地区研究对象:AIDC行业本报告的关键问题:1)智算中心能耗结构中哪些环节是影响PUE与TCO的核心瓶颈?2)不同制冷与供电架构在能效与成本控制中的优劣势如何演变? 2 目录CONTENTS ◆智算中心DCF产业全景洞察--------04•智算中心基础构成--------05•GPU芯片功耗增加--------06•新服务器功耗增加--------07•成本影响因素分析--------08•智算中心的成本与能耗--------09•商业模式--------10•制冷技术PUE发展趋势--------11•供电系统--------12•中国投运/在建/规划智算中心项目区域分布--------13•智算中心参与者分布--------14•数据中心电力需求--------15•全球及中国数据中心平均年PUE--------16◆头豹业务合作介绍--------17◆方法论及法律声明--------18 第一章节:智算中心DCF产业全景洞察主要观点:智算中心的底层基础设施体系高度复杂,涵盖供配电、制冷、机柜、布线、防雷、防火等多系统协同,核心在于保障算力设备的高可用性与稳定运行。智算中心造价由客户需求、技术方案、冗余设计、规模、区位与设备选型等多因素共同决定,呈现高度定制化与系统性成本差异。高密度智算中心的成本与能耗矛盾正在逼迫系统从“设备堆叠”向“冷算协同”的架构性变革过渡,制冷效率已成为TCO与PUE优化的核心突破口。智算中心商业模式正从传统基础设施托管向算力、平台、模型与应用全链条服务演进,服务形态高度多元化以匹配不同类型客户需求。智算中心布局正在由资源承载与需求牵引双轮驱动,呈现东部聚集化与中西部资源导向型的功能性分工格局。智算项目由地方政府主导发起,算力资源则加速向头部互联网与云厂商集中,形成“政策引导+市场集中”的双层格局。 ©2025 LeadLeo 来源:专家访谈,头豹研究院智算中心的底层基础设施体系高度复杂,涵盖供配电、制冷、机柜、布线、防雷、防火等多系统协同,核心在于保障算力设备的高可用性与稳定运行智算中心DCF产业全景洞察——智算中心基础构成智算中心基础构成机柜系统机柜是机房统一采用的管理方式,用于堆叠硬件的系统,以便有效地使用空间。网络设备、服务器、配线架等设备都会统一安装到机柜里面。机柜需根据机房整体设施来配置,需要在设计和管理中综合考虑。智算中心更多的采用高功机柜和液冷机柜。综合布线系统机房综合布线系统一般要求布线距离短,整齐且排列有序。综合布线系统内建信息传输通道,外接建筑外的通信网,作为智算中心的中枢神经,关系着整个网络的运行状态。智算中心相比传统IDC拥有更高的带宽和更大的承载能力,以满足大规模数据传输和处理的需求。防雷接地系统防雷接地系统是弱电精密设备及机房保护的重要子系统,主要由雷电接受装置、引下线、接地线、接地体(级)、接地装置、接地网、接地电阻组成。消防系统机房中存在大量的电子设备和电缆,火灾风险较高。因此,消防系统的安装和运行至关重要。它包括火灾报警系统、灭火器、自动喷水系统和气体灭火系统等,以提供及时的火灾报警和灭火措施,保护机房和设备的安全。L2:IT设施服务器、存储设备、网络设备L1:基础设施电源、制冷、机柜、安全、机房管理L0:楼宇设施HVAC、照 明、传 输、安保、防火 5供配电系统供配电系统包括主电源、UPS和配电柜。主电源通常市电供电,而UPS则用于在电网电力中断时提供临时电力,以保证设备的连续运行。配电柜用于将电力分配到各个机柜和设备,发电机作为主要的后备动力电源。UPS系统确保了24小时不间断的供电。暖通系统暖通系统包括冷却系统、空调系统和湿度控制设备,以确保机房内的温度和湿度处于适宜的范围,保护设备的正常运行。考虑到液冷散热,智算中心的暖通系统配备专门的液冷散热设备,以及更复杂的设备布局和管道设计,以确保冷却剂能够有效地流动并带走热量。机房装修系统机房装修系统深度融合了多学科、多领域的综合工程。在设计施工中应对供配电方式、空气净化、环境温度控制、安全防范措施以及防静电、防电磁辐射和抗干扰、防水、防雷、防火、防潮、防鼠诸多方面给予高度重视,以确保智算中心各系统长期正常运行工作。机房管理系统智算中心机房管理系统也是机房集中监控系统,该系统对机房的各种智能设备机房环境以及PUE值实现了全方位的统一集中监控管理。机房管理系统解决AIDC可视化的难题。直观、丰富的多维度看板与数据表达高度融合,并通过管线、能耗可视化等多方面高质量传达。 来源:专家访谈,头豹研究院新一代GPU芯片以精度可调、互联增强与极限功耗为特征,在大幅释放AI算力的同时,对智算基础设施提出结构性重构要求智算中心DCF产业全景洞察——GPU芯片功耗增加新一代GPU芯片功耗显著增加架构A100H100H200GH200B100B200AmpereHopperHopperHopperBlackwellBlackwell显存大小80GB80GB141GB141/144GB180/192GB 180/192GB显存宽带2TB/s3.35TB/s4.8TB/s4.9TB/s8TB/s8TB/sFP16算力(FLOPS)312T1P1P1P1.75P2.25PINT8算力(OPS)624T2P2P2P3.5P4.5PFP8算力(FLOPS)-2P2P2P3.5P4.5PFP6算力(FLOPS)----3.5P4.5PFP4算力(FLOPS)----7P9PNVLink宽带600GB/s900GB/s900GB/s900GB/s1.8TB/s1.8TB/s功耗400W700W700W700W1,000W1,200W 6Full B200GB200BlackwellBlackwell192GB384GB8TB/s16TB/s2.5P5P5P10P5P10P5P10P10P20P1.8TB/s3.6TB/s1200W2,700W❑NVIDIA新 一 代GPU芯 片 从Ampere(A100)到Hopper(H100/H200/GH200)再 到Blackwell(B100/B200/GB200)架构的跨代演进路径,突显出其在AI时代对大模型训练与推理需求的系统性回应。❑核心算力指标如FP16、INT8、FP8等在Blackwell架构下呈现倍数级增长,尤其在FP4/FP6低精度计算能力上显著提升,反映出面向AI大模型推理与训练的新架构已全面向极致性能和高能效比优化。此外,显存带 宽 从A100的2TB/s提 升 至GB200的16TB/s,NVLink也翻倍 扩 展 至3.6TB/s,旨 在 支 撑大模型分布式并行训练需求。而功耗亦同步激增至2700W,表明下一代GPU将显著推高智算中心在电力、散热和系统设计方面的基础设施门槛,对系统集成商提出更高挑战,也加速数据中心向液冷与高密度部署形态演进。 来源:专家访谈,头豹研究院AI服务器正向“高精度异构算力+极限带宽互联+超线性能耗密度”演进,重构数据中心的供电、散热与系统架构边界智算中心DCF产业全景洞察——新服务器功耗增加新服务器功耗持续增加架构HGX A100HGX H100HGX H200HGX B1008×A100 SXM8×H100 SXM8×H200 SXM8×B100 SXM显存大小640GB1.1TB1.1TB1.44/1.5TB显存宽带8×2TB/s8×3.35TB/s8×4.8TB/s8×8TB/sFP16算力2.4P8P8P14PINT8算力4.8P16P16P28PFP8算力-16P16P28PFP6算力---28PFP4算力---56PGPU-to-GPU宽带600GB/s900GB/s900GB/s1.8TB/sNVLink宽带4.8TB/s7.2TB/s7.2TB/s14.4TB/s以太网网络200Gb/s400Gb/s+200Gb/s400Gb/s+200Gb/s2×400Gb/sIB网络8×200Gb/s8×400Gb/s8×400Gb/s8×400Gb/sGPU功耗3.2kW5.6kW5.6kW5.6kW总功耗6.5kW10.2kW10.2kW10.2kW 7HGX B2008×B200 SXM1.44/1.5TB8×8TB/s18P36P36P36P72P1.8TB/s14.4TB/s2×400Gb/s8×400Gb/s8kW14.3kW❑随 着HGX服务 器 从A100迭 代至B100/B200,算力系统已不再仅追求单精度性能提升,而是呈现出以精度可变、带宽扩展和功耗堆叠为核心特征的结构性跃迁趋势。❑具体表现为:FP8/FP6/FP4等低精度算力指数级上升,标志AI推理需求正主导算力体系设计重心;NVLink互联和GPU-to-GPU通信能力翻倍增长,有效缓解大模型并行训练中的通信瓶颈;而单节点总功耗从6.5kW跃升至14.3kW,意味着智算服务器已成为数据中心能耗与散热规划的核心负载单元,传统散热、电力系统将面临系统性重构压力。❑整 体 而 言,AI基 础 设 施 正 从“资源堆叠”走向“能效协同”,HGX架构的升级已不再是GPU性能提升的简单累加,而是数据中心级技术协同的高度集成体现。 来源:专家访谈,头豹研究院智算中心造价由客户需求、技术方案、冗余设计、规模、区位与设备选型等多因素共同决定,呈现高度定制化与系统性成本差异智算中心DCF产业全景洞察——成本影响因素分析智算中心成本影响因素分析客户群体技术方案架构规模效应地域条件不同客户群体对建设智算中心工艺部分造价有着显著的差异。例如:金融行业客户重视安全性,对智算中心电气,暖通系统的安全性要求比较高,建设成本比较高;互联网客户比较注重能效指标,注重经济性,建设成本相对较低。制冷系统:液冷模式、风冷模式、冷冻水系统自然冷却技术、氟泵、间接蒸发冷等形式。供电架构:单路UPS+市电、双路UPS、HVDC高压直流+市电、市电直供等多种模式电池系统;不同的方案架构也是影响智算中心的机电造价的因素之一。设备采购的折扣一个智算中心的成本很大程度取决于项目设备采购的价格,智算中心的体量越大,对于设备采购的价格审批折扣相对越低;施工效率的提升基于智算中心的快速交付和快速相应能力,智算中心采用模块化预制方式,可以大大缩短施工工期,减低人工成本15%-20%。气候条件影响制冷成本,在北方地区,利用先天气候条件,全年50%以上的时间都可以停止冷机或压缩机的运行,大大减低了制冷设备的投资。土地与基建成本,一线城市土地的成本比价高,间接的推高了智算中心的成本,环保限制导致一些一线城市