您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:AIDC系列(一):电源、配电、冷却的发展趋势 - 发现报告

AIDC系列(一):电源、配电、冷却的发展趋势

电气设备2025-02-12邓永康、许浚哲民生证券杨***
AIDC系列(一):电源、配电、冷却的发展趋势

民生电新邓永康/许浚哲 核心要点 ØAI浪潮推动服务器功率提升,AIDC供配电架构或将发生重大变化。全球AI市场规模扩增,数据中心资本开支加速。芯片单体功耗急速增加,带动单台服务器功耗提升。芯片方面,英伟达的H100和H200单芯片功耗为700W,GB200达到2700W,单芯片功耗显著提升;服务器配置方面,区别于传统8卡服务器的常规10KW的功耗、40KW的整机柜功率,GB200 NVL72架构则需要72颗GPU,整体功率大幅提高到120KW。AI训练和推理任务需要处理海量数据,对算力的需求激增,这要求GPU具备更高的计算能力,单体功耗显著提升,进而带动机柜功耗的大幅增加。未来AIDC的需求呈现高功率、高密度、高效率、高可靠性趋势,这将使整个数据中心的供配电架构发生重大变化。同时,大功耗下散热系统也将变得尤为关键。 •电源趋势:高效率、高功率 1、机柜外电源:高压HVDC方案创新提出,可进一步提升效率。传统HVDC输出电压等级240、380V,未来新一代HVDC将提高到750V/800V等输出电压,直流供电系统减少交直流变换环节,转换效率可从95%提升到98%。 2、机柜内电源:AI服务器电源升级,功率密度提升。PSU架构从3kW、3.3kW到8kW、12kW的电源功率进阶,功率密度将从32W/立方英寸提升至100W/立方英寸,核心是通过硅、SiC、GaN等半导体材料提升电源的功率密度,以在有限的空间内提供更高的功率输出。传统8卡服务器为6*3.3kW的电源架构,NVL72架构为6*5.5kW*8的电源架构。同时也可能加入BBU的设计作为后备电源。 •配电趋势:预制化、模组化、智能化 配电相关变化:未来AIDC的趋势正朝着超大规模和快速部署等方向演进,这将推动电力模组化、预制化、智能化趋势,集成配电柜、变压器、UPS/HVDC等环节,节省供配电部分的占地面积,工厂预制连接铜排,现场施工简便,提升安装效率,同时可集中监控管理设备运行。AIDC配电的新趋势将带动电路元器件升级,同时电能质量管理也需要提升。此外母线的应用在数据中心里也可能提升,前端连接母线替代传统电缆,末端连接智能小母线方案。 核心要点 •冷却趋势:液冷方案渗透率提升。在高功率密度机柜的场景下,为了解决机柜间的散热需求,液冷方案逐渐兴起。液冷方案的散热能力更强,同时可以降低数据中心的PUE。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。 ØAIDC供配电环节投资建议 1、机柜内电源(AI服务器电源):电源功率密度升级,建议关注【麦格米特】【欧陆通】【泰嘉股份】等。 2、机柜外电源(UPS/HVDC):机柜外电源不可或缺,新资本开支涌入,利好集群化潜在新技术高压HVDC等方案,建议关注【科华数据】【禾望电气】【中恒电气】【科士达】等。 3、AIDC配电:配电环节整体价值量占比较高,后续随着资本开支增加市场规模有望扩大,同时电力模组化趋势重点是配电环节的变化,配电&电路元器件建议关注【良信股份】【明阳电气】【宏发股份】【法拉电子】【中熔电气】;变压器【金盘科技】【伊戈尔】等;智能母线【威腾电气】;同时建议关注电能质量环节。 4、冷却环节:建议关注【英维克】【高澜股份】【同飞股份】【申菱环境】 5、备用电源:柴油发电机环节,建议关注【科泰电源】等。 Ø风险提示:下游资本开支不及预期;行业竞争加剧风险;技术替代风险。 数据中心供配电架构解析 AI浪潮推动服务器功率提升 电源趋势:高效率、高功率 配电趋势:预制化、模组化、智能化 冷却趋势:液冷方案渗透率提升 05 数据中心供配电架构解析01. 数据中心供配电系统 •数据中心供配电系统:为机房内所有需要动力电源的设备提供稳定、可靠的支撑。一般来说,A级数据中心采用双路电源供电,10kv市电进线到数据中心服务器的末端,常见的两路供电同时处于热备份状态,一路断电时另一路会支持关键负载持续供电。从上游到下游包括中压柜、变压器、低压配电柜,配电柜进线进到UPS,通过整流再给到PDU做最终分配,分配给各个服务器。 数据中心供配电架构 •A级数据中心供配电系统主要有3种架构:2N、DR、RR。 •2N系统:2个供配电单元同时工作,互为备用,每个单元均能满足全部负载的用电需要。正常运行时,每个单元向负载提供50%的电能;当一个单元因故障停止运行时,另一个单元向负载提供100%的电能。可克服单电源系统存在的单点故障瓶颈,增强供电系统可靠性。 •DR系统:分布冗余。由N(N≥3)个配置相同的供配电单元组成,N个单元同时工作。将负载均分为N组,每个供配电单元为本组负载和相邻负载供电,正常运行下,每个供配电单元的负荷率为66%。当一个供配电系统发生故障时,其对应负载由相邻供配电单元继续供电。 •RR系统:后备冗余。由多个供配电单元组成,其中一个单元作为其它运行单元的备用。当一个运行单元发生故障时,通过电源切换装置,备用单元继续为负载供电。 数据中心主要设备环节 •两路市电:每一路市电供电容量满足数据中心全部电力需求,两路电源负荷设备输入端自动切换,正常时同时供电,各承担50%负载。 •柴油发电机:独立于正常电源,当正常电源发生故障时,作为备用电源承担数据中心正常运行所需要的用电负荷。 •变压器:将市电6kV/10kV/35kV(3相)转换成380V/400V(3相),供后级低压设备用电。 •UPS:挂载的蓄电池与主机相连接,通过主机逆变器等模块电路为重要服务器负载持续供电,保证数据中心不断电,同时能净化电网。 •断路器:接通、承载以及分断正常电路条件下的电流,也能在规定的非正常电路(例如过载、短路)下接通,承载一定时间和分断电流。 资料来源:《阿里云数据中心基础设施初级运维工程师》、民生证券研究院•空调系统:由制冷循环和空气循环组成,制冷循环即利用有限的制冷剂在封团的制冷系统中,不断的在基发器处吸热汽化,进行制冷降温,将热量从室内微运到室外,主要分为水冷和风冷两类。 •其他系统:保障数据中心的正常运转、安全管理及高效运营的其他系统,包括照明系统、消防系统、网络设备系统、监控系统等。 后备电源——柴油发电机组 •柴油发电机组是数据中心的后备电源之一,独立于正常电源,由柴油内燃机组、同步发电机、油箱、控制系统4个部分组成,柴油为燃料产生高温、高压燃气,燃气膨胀推动活塞使曲轴旋转产生机械能,最终机械能转换为电能输出。市电故障时ATS(自动转换开关)自动将电源切换到发电机作为主电源,发电机快速启动并对外输出稳定可靠的电能,保障数据中心正常运行。 •根据Uptime Insituite数据中心系统可用性划分,Tier I(基础型)、Tier II(组件冗余型)、Tier III(同时可维护型)、Tier IV(容错型),每一级都需要配备用于停电的发电机,最常见的Tier III始终需要提供备用电源冗余;《数据中心设计规范》GB50174-2017规定,后备柴油发电机组的性能等级不应低于G3级(这一级别开始性能就能满足一些设备备用供电使用需求),A级数据中心发电机组应连续和不限时运行,发电机组的输出功率应满足数据中心最大平均负荷的需要。 •优点:燃油相对便于存储;维护相对简单,只需进行定期的燃油过滤和更换、定期更换冷却液和机油;启动时间更短,启动时只需将燃油喷射到高压燃油泵和喷油器中,经过压缩和点火即可自动燃烧从而启动;紧急带载能力较强,首次加载功率可以达到备用功率的50%~70%;过载能力强,可在100%功率下长时间安全稳定运行。 AI浪潮推动服务器功率提升02. 全球AIDC建设浪潮来袭 •全球AI市场规模扩增,未来几年将成为万亿美元市场。根据Precedence Research数据,2023年全球AI市场规模为5381.3亿美元,2024年全球AI市场规模预计为6382.3亿美元,2024年至2034年将持续大幅扩增,CAGR达19.1%。北美区域占据了最大的市场份额,23年占比达到全球的37%。未来除了北美区域以外,预计亚太地区将成为预测期内增长最快的人工智能市场。 •海外数据中心投资大幅抬升,北美是全球最大的数据中心市场。2024年第三季度,北美四大厂商资本开支持续增长,微软Q3资本支出达200亿美元,同比增长78%,公司预计2025年投资约800亿美元用于数据中心开发;谷歌Q3资本支出为131亿美元,同比增长62%,最大支出为技术基础设施,其中第一是服务器,第二是数据中心;亚马逊Q3资本支出为226.2亿美元,同比增长81%,公司财报电话会议中预计2024全年资本支出达到750亿美元,资本支出主要集中在扩展数据中心网络,促进AWS(云计算业务)和Gen AI(生成式人工智能);MetaQ3资本支出为92亿美元,同比增长36%,主要为服务器、数据中心和网络基础设施的投资,全年预估为380-400亿美元,2025年预估大幅增长。 •海外资本开支持续加速。2025年1月21日,美国总统宣布由OpenAI、日本软银集团、Oracle组成的联合企业“星际之门”(Stargate),在美开启大规模智算中心建设,在德克萨斯建立智算中心和所需的发电设施,初期投资为1000亿美元,预计未来四年增长到5000亿美元,以支持AI技术发展。图表:2023-2034年全球AI市场规模(单位:十亿美元)图表:海外云厂商数据中心投资计划(不完全统计) 算力需求带动GPU计算能力提升 •全球算力需求激增。国内方面,中国工业和信息化部等六部门联合印发的《算力基础设施高质量发展行动计划》提出,2025年中国算力规模应超过300 EFLOPS,其中智算规模超过35%。海外方面,根据华为GIV预测,2030年全球每年产生的数据总量达1YB(尧字节,数据存储容量单位),进入YB时代,全球智算规模将超过864 ZFLOPS(每秒10²¹次浮点运算)。 •GPU是AI算力的核心支柱之一。相比CPU算力增速的逐渐放缓,GPU算力在十年内实现千倍增长,并保持高速递进。据IDC预计,2025年GPU将占据AI芯片市场80%市场份额。算力激增对GPU计算能力提出更高要求。 •英伟达GPU更新换代,计算力不断升级。GB200计算性能大幅提升,相比H100算力提升6X,推理性能提升30X,大规模语言模型训练速度提升4X,相比CPU关键数据库查询处理速度提升18X,芯片内部晶体管数量增加,GPU芯片功耗的显著提升。 芯片功耗上升,单机柜高功率趋势凸显 •芯片单体功耗急速增加,带动单台服务器功耗提升。芯片方面,英伟达的H100和H200单芯片功耗为700W,GB200达到2700W,单芯片功耗显著提升;服务器配置方面,NVL32 GPU数量为32颗,GB200 NVL72架构则需要72颗,单机柜部署4台服务器至9台服务器,整体功率要求大幅提高。传统每台8卡AI服务器的功耗在5kW~10kW,进一步由服务器组成整体机柜时,单机柜的功率将达到40kW以上。HGX系列单台服务器功耗从Hopper架构的10.2kW提升到Blackwell架构HGX B200的14.3kW,而NVL72单机柜功耗提升到120kW。 •单位机柜密度提升。据Vertiv预测,2024至2029年,每机架的GPU数量将从36个显著增长到576个。机柜的物理空间相对有限,未来机柜的功率密度将快速提升,Rubin Ultra时期,AI GPU峰值机架密度功耗最高或超过1000kW,进入MW时代。 传统8卡服务器机柜和NVL72机柜功率对比 •新一代NVL72机柜GPU功率飙升,同时采用新一代NVLink,机柜功率大幅提升。DGX架构8卡GPU H100服务器额定功耗为10.2kW,安装4台服务器的风冷机柜功耗为42kW。新一代GB200 NVL72液冷机柜功率密度为120kW。 •传统8卡服务器机柜:DGX H100服务器包含8个H100 GPU,2个Intel XeonC