您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开源证券]:通信行业深度报告:AI热浪起,液冷迎来黄金时代 - 发现报告

通信行业深度报告:AI热浪起,液冷迎来黄金时代

信息技术2024-03-11蒋颖开源证券C***
通信行业深度报告:AI热浪起,液冷迎来黄金时代

AIGC驱动IDC朝高密度化发展,政策严控PUE,液冷渗透率有望加速提升AI带来高算力需求,叠加双碳时代严控PUE,在数据中心高密度化时代,液冷优势日益凸显。(1)主流计算芯片功耗不断增加。Intel多款CPU TDP已达350W,NVIDIA的H100 SXM TDP甚至达到700W,B100 TDP或将达到1000W左右,国产计算芯片TDP也在350W左右,逼近风冷单点散热极限;(2)出于组网方式和应用的考虑,AI集群功率密度较高。AI集群对算力密度有一定要求,训练单元过于分散不利于作业开展,减少组网距离亦可减少通信耗材开支。(3)单机柜功率不断增长,逼近风冷散热极限。NVIDIA DGX A100服务器单机最大功率约在6.5KW左右,在机柜上架率不变的情况下,服务器功率上升导致单机柜功率亦不断增长,逼近风冷12-15KW散热极限,继续采用风冷散热将导致行间空调需求数量陡增,高密度散热场景下液冷方案成本和性能优势显著。(4)IDC耗电量与日俱增,节能减排迫在眉睫。在双碳战略引导下,政策对PUE要求趋严,加速推动IDC向低碳化演变,液冷是散热技术演变的必经之路,未来有望成为首选。 液冷相较风冷优势颇多,运营商助推按下加速键,产业有望蓬勃发展 液冷技术优势显著,运营商助力液冷生态逐步完善。虽然风冷技术是目前普遍应用的数据中心散热技术,但其存在散热密度低和散热能力差的缺陷,在散热密度较高的场景如AI集群、HPC集群下尽现颓势。液冷与风冷技术相比,液冷技术主要有:(1)低能耗;(2)高散热;(3)低噪声;(4)低TCO;(5)空间利用率高;(6)环境要求低,易部署;(7)余热回收易实现等优势。在电信运营商的强推动下,我们认为液冷产业链生态有望快速发展,解决液冷产品标准不统一、CAPEX较高等行业痛点,液冷普及率或将持续增长。 行业参与者众多,“技术、客户认证、运维”构成核心竞争壁垒 液冷产业可按照服务器内部和外部进行划分,对于服务器内部,液冷系统部署关键是液冷零部件(冷板式:液冷板、管路、QDC等;浸没式:冷却液等)与服务器的适配,IT设备商和温控设备商需要进行产品适配及耦合,具有紧密合作关系;对于服务器外部,主要是Manifold、CDU、冷源等液冷基础配套设施的适配。我们认为液冷行业的竞争壁垒主要体现在“技术、客户认证、运维”等综合能力上。 投资建议 受益标的包括:液冷全链条解决方案提供商:英维克;服务器冷板:英维克(GPU/CPU)、飞荣达、高澜股份等;液冷产业链布局:曙光数创、申菱环境、科华数据、依米康、同飞股份等;液冷服务器:中兴通讯、紫光股份;液冷IDC供应商:宝信软件、润泽科技、光环新网、科华数据、奥飞数据、网宿科技等。 风险提示:国家政策变动风险、行业竞争加剧风险、数据中心发展不及预期。 1、AIGC时代,液冷技术发展迎来风口 AIGC高速发展,带动数据中心朝着高密度化发展。(1)主流计算芯片功耗不断增加;(2)AI集群对算力密度有一定要求,训练单元过于分散不利于作业开展,减少组网距离亦可减少通信耗材开支。(3)单机柜功率不断上升,逼近风冷散热极限,液冷散热效率优于风冷,或将成为更佳选择。 政策对PUE要求趋严,引导数据中心绿色化发展。我国数据中心耗电量与日俱增,数据中心平均PUE水平偏高,液冷方案可使PUE降至1.25以下,充分满足政策要求。 电信运营商提出解耦式交付,助推液冷标准化和规模化发展。据中国三大电信运营商联合发布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:推进液冷机柜与服务器解耦,引领形成统一标准,降低液冷全生命周期成本。服务器厂商和生态链服务商积极布局液冷,促进液冷生态逐渐完善。 1.1、人工智能发展与算力提升对散热有更高需求 人工智能迎来新变革,带来大量算力和机柜需求。2022年底生成式AI大模型ChatGPT横空出世,掀起新的AI浪潮,海内外互联网巨头、科技企业及研究机构等陆续投入到大模型研发当中,拉开“百模大战”的序幕,据浪潮信息发布的《2023-2024年中国人工智能计算力发展评估报告》,截至2023年10月,中国累计发布两百余个大模型,其中以科研院所和互联网企业为开发主力军。随着AI语言大模型的不断迭代,模型数据量和参数规模呈现指数级增长,算力需求不断提升。以GPT模型为例,GPT-3模型参数约为1746亿个,训练一次需要的总算力约为3640 PF-days。据中国信通院数据,2023年推出的GPT-4参数数量可能扩大到1.8万亿个,是GPT-3的10倍,训练算力需求上升到GPT-3的68倍,在2.5万个A100上需要训练90-100天。无论是AI模型的训练还是推理均离不开算力资源的支持,AI的高速发展带来大量算力和数据中心机柜需求,拉动算力基础设施建设。 全球算力规模维持高增长。经中国信息通信研究院测算,在FP32精度下,2022年全球计算设备算力总规模达到906 EFlops并持续维持较高增速,增速达到47%,其中基础算力规模为440 EFlops,智能算力规模已超过基础算力规模,达到451 EFlops,超算算力规模为16 EFlops。中国信通院预计2024-2028年全球算力规模将以超过50%的速度增长,到2025年全球计算设备算力总规模将超过3 ZFlops,至2030年将超过20 ZFlops。 图1:全球算力规模维持高增长 AI形成强大推动力,液冷数据中心市场规模保持高速增长。AIGC的高速发展离不开高算力的支撑,随着计算芯片功耗持续上升带动服务器及整机柜功耗上升,液冷散热有望成为首选。据科智咨询预计,2023年中国液冷数据中心市场将同比增长53.2%,市场规模将增长至154亿元,预计2022-2027年,中国液冷数据中心市场将以59%的复合增长率持续蓬勃发展。预计到2027年,随着AI系列应用的规模化落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。 图2:中国液冷数据中心市场规模有望持续增长 (1)在需求方面,随着AI大模型、云计算、5.5G等新兴技术的不断发展,互联网、政府和电信行业仍为液冷数据中心的需求主力军,金融、下游制造、医疗、能源等行业也有望不断加大液冷相关投入。 (2)生态方面,液冷产业早期上下游协同性不高,无统一相关标准,难以形成合力。液冷服务器是液冷生态链的核心价值环节,近期众多服务器厂商先后推出液冷服务器,其他设备厂商相继推出液冷交换机、液冷光模块、液冷机柜等配套设备,积极布局液冷产业,液冷生态链设备商及服务供应商紧密配合,共同推动液冷生态进一步完善。三大电信运营商助推液冷解耦式交付,引领液冷接口标准化、规范化发展,构筑开放生态,液冷渗透率有望进一步提升。 (3)成熟度方面,冷板液冷发展较早,相比浸没式和喷淋式、生态更完善、改造成本更低、改造周期较短,冷板式液冷可作为传统风冷的平滑过渡,未来有望进一步向浸没式液冷转变。随着众多成熟液冷项目持续落地,液冷发展走向良性循环。 (4)政策方面,IDC耗电量与日俱增,数据中心绿色化发展成为共识,国家对PUE要求不断趋严,液冷相较风冷具有明显节能优势,减少冷却设备能耗,能有效降低PUE至1.25以下。 (5)成本方面,虽然液冷总体Capex仍高于风冷,但从单位角度来看,单千瓦散热Capex已在快速下降,成本拐点或将出现。据赛迪顾问发布的《2023中国液冷应用市场研究报告》,2022年液冷数据中心1kW的散热成本为近6500元,相比2022年已经下降了54.2%,预计2023年1kW的散热成本有望降至5000元左右,与传统风冷的建设成本已基本持平。随着单位散热成本持续下降,液冷TCO优势逐渐显著,或将加速老旧风冷数据中心改建为液冷数据中心,液冷渗透率持续增长。 图3:中国液冷数据中心每千瓦散热成本持续改善(元) 1.1.1、高算力需求下IDC机柜数量持续增长 算力需求支撑我国数据中心机架规模持续增长。服务器设备是提供算力资源的主要载体,IDC(数据中心)则是给集中放置的ICT设备(服务器设备、网络设备、存储设备)提供运行环境的场所(数据中心=IT+电力+制冷)。AIGC的兴起引发数据量和计算量快速增长,在一线城市数据中心资源日趋紧张的情况下,AI的高算力需求或将持续带动IDC的建设和机架数量的增长。据工信部、信通院数据,截至2023年6月底,我国在用数据中心机架规模达到760万架,同比增速达到28.8%,2022年底总机架规模达到650万架,2018-2022年复合增速超过30%。 图4:我国数据中心机架数量持续增长 1.1.2、高算力需求下单机柜功耗持续增长 计算芯片功耗持续攀升,以满足高算力需求。后摩尔定律时代下,芯片制程技术发展趋缓,计算芯片多以提高核心数量等方式提高算力,导致计算芯片如CPU和GPU的功耗不断攀升。AI服务器作为人工智能发展的重要算力底座,CPU和GPU(或其他ASIC计算芯片)的整体功耗在AI服务器总功耗中占比达到80%左右(。1)在CPU方面,从2017年Intel第一代铂金至强处理器的发布到2023年12月第五代处理器问世,核心数量从早期的24颗提升至最多64颗,同时TDP(热设计功耗)从150W提升至最高385W,功耗相比第一代提升超2倍;(2)在GPU方面,用于人工智能计算的GPU TDP从早期V100Nvlink的300W提升至H100 SXM的700W,未来功耗或将持续增长。 图5:CPU和GPU TDP(W)持续增长 AI服务器功率已达风冷散热瓶颈。(1)芯片单点冷却方面:芯片功率密度的不断提升直接影响着芯片的散热和可靠性,逼近风冷散热上限800W左右,而液冷能有效满足芯片的散热需求。(2)机柜整体冷却方面:芯片功率的增加也导致整机柜功率的增长,采用传统风冷的数据中心通常可以解决12kW以内的机柜制冷。随着服务器单位功耗增大,同样尺寸的普通服务器机柜可容纳的服务器功率往往超过15kW,相对于现有的风冷数据中心,已逼近空气对流散热能力天花板。通用服务器功率平均在0.5KW左右,对于6KW、8KW的高功率机柜可以放置10台服务器以上。 AI服务器功率可达6KW以上,以NVIDIA DGX A100服务器为例,额定功率约为4KW,单机最大功率约为6.5KW。一个标准42U高度的机柜中,假设放置5个5U高度的AI服务器,则需要超过20KW的单机柜功率,此时已超过风冷的散热极限,液冷或将成为最佳选择。 图6:机柜功率密度与制冷方式 数据中心机柜功率持续上升,在AI驱动下功率增速或将加快。根据Uptime Institute发布的《2020全球数据中心调查报告》统计,2011年数据中心平均单机架功率仅为2.4 kW/机架,2017年上升到5.6 kW/机架,至2020年已达8.4 kW/机架。 AI高速发展带来了高算力需求,芯片功耗随之不断增长,导致数据中心单机架的功率升高,从4.4 kW/机架逐渐升高至8 kW/机架、25 kW/机架、30 kW/机架甚至更高。 单机柜功率持续上升,液冷散热更具优势。在传统风冷机房微模块中,随着通用服务器或GPU服务器上架率的提升,单机柜功率密度不断增长,迫使列间空调数量大增,导致机柜数量减少,并出现风冷制冷技术成本高、难度大的问题,性价比较低。在单机柜功率上升趋势下,对于用于AI训练与推理的智算机柜,在不减少AI服务器上架量的情况下,单机柜功率或已超过风冷的散热极限,液冷可支持高密度散热,散热效率和成本等优势愈发显著。 图7:单机柜密度增长趋势下,列间空调数量逐渐增加,风冷散热渐显颓势 表1:随着机柜密度上升,风冷制冷难度与成本上升 1.2、与传统风冷技术相比,液冷技术优势显著 液冷散热相比传统风冷散热效果更佳。传统风冷技术是成熟且应用最广泛的数据中心散热技术,它以空气为介质进行散热,通过送入低温空气、经与电子器件进行热交换后,将热量带走。相较于液冷散热,风冷技术存在密度低、散热能力差、易形成局部热点、机械能耗大等缺陷。液冷方式则以液体为介质