AI智能总结
2024年11月24日 算力时代散热革命,AI液冷拐点已至 中泰通信 首席分析师:陈宁玉(S0740517020004) Email:chenny@zts.com.cn研究助理:佘雨晴Email:sheyq@zts.com.cn 分析师:杨雷(S0740524060005) Email:yanglei01@zts.com.cn 1 目录 CONTENTS 01算力器件功耗提升,传统风冷受限 02液冷需求放量在即,浸没式或为长期方向 03国内外厂商加快布局,产业化进程加速 04重点标的梳理 05投资建议与风险提示 目 CONTENTSO 中泰 录 E 所 1NT 算力器件功耗提升,传统风冷受限 |领先|深度 摩尔定律趋缓,芯片算力功耗齐升。IDC测算2022年中国智能算力规模约260EFLOPS(FP16),2027年将增至1117EFLOPS,2022-2027年CAGR达34%。算力高需求带动AI芯片加速迭代,性能升级的同时功耗显著增长,2016年-2022年,CPU平均功耗从100-130W提升至300-400W,GPU/NPU由250W提升至500W,英伟达单颗H100的TDP(热设计功耗)最高达700W,最新发布B200采用Blackwell架构,功耗达1000W,由2个B200GPU和1个GraceCPU组成的GB200解决方案功耗高达2700W,散热路线由风冷转向液冷。TDP350W通常被认为是风冷和液冷的分水岭,预计未来3年内大多数最新一代处理器TDP将超过400W,超过风冷散热能力范围。 图表:CPU和GPU的TDP趋势(W) GPUTDP(W)TFLOPS(训练)通过V100实现的性能TOPS(推理)通过V100实现的性能 图表:各代英伟达GPU的TDP和性能图表:处理器TDP值与风冷&液冷冷却能力对比 V100SXM232GB30015.71X621X A100SXM80GB4001569.9X62410.1X H100SXM80GB70050031.8X200032.3X 来源:阿里云,施耐德电气,企业存储技术,中泰证券研究所5 国产AI芯片快速发展,提高散热能力要求。国产AI芯片整体处于起步阶段,华为、寒武纪、海光信息等持续升级芯片性能,完善生态建设,缩小与国际领先厂商差距,海外供应链不确定性增强背景下,国产算力替代有望加快,华为910B性能可对标英伟达A100。对比英伟达B200和A100,分别采用4nm和7nm制程,B200算力(FP16)约为A100的7倍,功耗仅为其2.5倍,因此我们认为受制工艺制程与良率,国内AI芯片能效比或低于海外领先厂商,后续随着芯片算力持续提升,散热需求有望显著增长。 图表:国内外主要AI芯片性能功耗对比 厂商 产品型号芯片类型训练/推理制程 峰值算力 () INT8,TOPS FP16算力(TFLOPS) 内存类型内存容量内存带宽 功耗 计算架构 性能功耗比 () TFLOPS/W NVIDIAH100SXMGPU 通用 4nm 1980 989 HBM3 80GB 3.35TB/s 700W Hopper 1.41 NVIDIAA100SXMGPU通用7nm624312HBM2e80GB2039GB/s400WAmpere0.78 NVIDIA GB200 - 通用 4nm 10PFLOPS 5PFLOPS HBM3E 384GB 16TB/s 2700W GraceCPU+BlackwellGPU 1.90 NVIDIAB200GPU通用4nm45002250HBM3E192GB8TB/s1000WBlackwell2.25 AMD MI300 GPU 通用 5nm 383 383 HBM3 128GB3277GB/s - CDNA3 - NVIDIAH20GPU通用-296148HBM396GB4TB/s400WHopper0.37 百度 昆仑2代 ASIC 通用 - 256 128 GDDR6 32GB 512GB/s 120W自研架构昆仑芯XPU-R 1.07 华为昇腾910BASIC通用7nm640320392GB/s310W自研“达芬奇”架构1.03 寒武纪MLU370X8ASIC通用7nm25696LPDDR548GB614.4GB/s150WCambriconMLUarch030.64 来源:英伟达官网,芯闻路1号,中泰证券研究所(性能功耗比以FP16算力计算,英伟达芯片算力均为稠密计算)6 图表:英伟达DGX服务器功耗 400 AI服务器占比提升,算力功耗翻倍增长。根据IDC,2022年全球AI服务器市场规模195亿美元,2026年预计347亿美元,CAGR达15.5%,远高于整体。TrendForce预计2023年AI服务器出货量同比增长38%,近120万台,占比约9%,至2026年份额约15%,4年出货量CAGR达22%。 英伟达DGXA100640G服务器采用双路AMDRome7742和8颗A100,系统功耗最大达6.5kw,H100640G服务器采用双路x86和8颗H100,系统最大功耗升至10.2kw。根据浪潮信息,2016年至今AI服务器单机算力增长近100倍,功耗从4kw增长到12kw,下一代将持续提升至18kw-20kw以上。 350 300 250 200 150 100 50 0 图表:全球AI服务器市场规模 2020202120222026E 市场规模(亿美元)占比 图表:AI服务器整机算力及功耗 25% 20% 15% 10% 5% 0% GPU8个NVIDIAA100TensorCoreGPU8个NVIDIAH100TensorCoreGPU GPU 640GB640GB 显存 60000 DGXA100 DGXH100 (TFLOPS) (W) 50000 整机AI算力 整机功耗 20000 18000 16000 性能 5PFLOPSAI 10PFLOPSINT8 32PFLOPSFP8 40000 14000 12000 NVIDIA NVSwitch64 30000 10000 CPU 双路AMDRome7742、共128个核心、2.25GHz (基准频率)、3.4GHz(最大加速频率) 双路x86 20000 8000 6000 系统内存2TB2TB 10000 4000 存储 操作系统:2个1.92TBM.2NVMe驱动器 内部存储:30TB(8个3.84TB)U.2NVMe驱动器 操作系统:2块1.9TBNVMeM.2硬盘 内部存储:8块3.84TBNVMeU.2硬盘0 2000 0 运行温度范围 5℃-30℃5℃-30℃ 20162017202020222024E 整机AI算力(TFLOPS)整机功耗(W) 系统功耗最大6.5kw最大10.2kw 来源:IDC,英伟达官网,浪潮信息,中泰证券研究所7 政策明确单位算力能效要求,推广应用节能技术装备。发改委等 《数据中心绿色低碳发展专项行动计划》中提出将严格新上项目能效水效要求,新建及改扩建数据中心应采用能效达到《塔式和机架式服务器能效限定值及能效等级》(GB43630-2023)和《服务器和数据存储设备能效“领跑者”评价要求》(T/CECA-G0284-2024)规定的节能水平及以上服务器产品。因地制宜推动液冷、蒸发冷却、热管、氟泵等高效制冷散热技术,提高自然冷源利用率。根据文件提及相关标准,配有通用图形处理器作为辅助处理器加速的服务器,相关通用图形处理器的单位带宽计算性能应大于70次/字节且能效(TFLOPS/W)满足如下规定,1) ≥14nm设备制造或非EUV设备制造,能效先进水平≥0.50,节能水平≥0.25;2)<14nm设备制造,能效先进水平≥1,节能水平≥0.5。 图表:通用图形处理器能效水平要求(T/CECA-G0284-2024) 节能水平 先进水平 通用图形处理器能效 通用图形处理器类型 单位:每秒浮点运算次数每瓦(TFLOPS/W) 配置大于或等于14nm设备制造的通用图形处理器,或配置非EUV设备制造的通用图形处理器 ≥0.50≥0.25 配置小于14nm设备制造的通用图形处理器 ≥1.00≥0.50 图表:服务器能效等级要求(GB43630-2023) 单位:性能标准分每瓦时 单位:性能标准分每瓦时 配置≥14nm工艺制造的中央处理器,或配置非EUV光刻设备制造的中央处理器配置小于14nm工艺制造的中央处理器 3级 2级 1级 服务器能效 服务器类型 3级 2级 1级 服务器能效 服务器类型 1路≥25.0≥15.0≥5.0 塔式 2路≥30.0≥20.0≥7.5 1路≥40.0≥25.0≥7.5 塔式 2路≥60.0≥30.0≥15.0 1路 ≥25.0 ≥20.0 ≥10.0 机架式 2路 ≥30.0 ≥25.0 ≥15.0 1路 ≥45.0 ≥40.0 ≥12.5 机架式 2路 ≥70.0 ≥45.0 ≥25.0 来源:中国政府网,全国团体标准信息平台,中泰证券研究所8 AI电力需求高增,推理或为主要来源。随着多模态大模型演进,AI应用场景有望持续拓宽。荷兰数据科学家AlexdeVries研究显示ChatGPT每天需消耗564MWh电力用于响应1.95亿次请求,GPT-3整个训练阶段耗电量预估为1287MWh,相当于ChatGPT目前4天的消耗量。谷歌数据同样显示2019-2021年AI相关能源消耗中60%来自推理部分。根据施耐德电气报告,预计AI电力需求2023年为4.5GW,到2028年将增长至14-18.7GW,5年CAGR达25%-33%,是数据中心总电力需求10%复合增速的2-3倍,AI电力消耗占总消耗比重由8%提升至15%-20%,其中推理消耗占AI比重由80%提高至85%。 2023 2028E 数据中心总电力消耗 57GW 93GW AI电力消耗 4.5GW 14.0-18.7GW AI电力消耗/总消耗 8% 15%-20% 训练与推理AI工作负载对比 20%训练,80%推理 15%训练,85%推理 集中与边缘AI工作负载对比 95%集中,5%边缘 50%集中,50%边缘9 图表:AI应用单次请求能耗高于标准谷歌搜索图表:数据中心AI电力消耗预测 来源:量子位,施耐德电气,中泰证券研究所 数据中心单机柜功率增加。数据量爆发式增长需要海量服务器支撑,受限于土地面积和环保政策规定,增加单机柜功率密度成为调和高增的算力需求与有限的数据中心承载能力的关键解决方案。ColocationAmerica数据显示2020年全球数据中心单机柜平均功率约16.5kW,较2008年增长175%,预计2025年进一步 达到25kw。根据CDCC,国内2022年8kw以上机柜占比达到25%,同比提高14pct。单柜功率超过15kw时风冷方式散热经济性将明显下降,GPU约占AI集群功耗一半,AI集群单柜功率可达50kw以上,传统风冷方案制冷技术难度和成本增加。 图表:全球数据中心单机柜功率变化(kw) 30 25 20 15 10 5 0 2008 2016 2020E2023E2025E 图表:数据中心功耗与GPU数量同步提升 图表:高功率密度机柜制冷技术成本高,难度大 图表:IDC机柜功耗计算模型 来源:ColocationAmerica,施耐德电气,超聚变,大话IDC,中泰证券研究所10 英伟达下一代芯片单机柜能耗或超过1MW,高密数据中心散热价值量提升。英伟达预计2028年左右推出RubinUltra,AIGPU峰值机架密度功耗最高或超过1000kW,有望推动液冷技术加速升级。 根据Vertiv数据,2023-2029年全球数据中心新增电力容量有望累计达100GW,每年约13-20GW,高密计算每MW价值量约300万-350万美元,较传统计算的250万-300万美