您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国信证券]:【国信通信·行业专题】:液冷温控——智算中心的重要保障 - 发现报告

【国信通信·行业专题】:液冷温控——智算中心的重要保障

信息技术 2024-07-29 马成龙 国信证券 棋落
报告封面

行业研究·行业专题通信投资评级:优于大市 证券分析师:马成龙02160933150machenglong@guosen.com.cnS0980518100002 目录 液冷温控:智算中心的稳定器01 液冷驱动温控价值提升,国内市场空间近百亿02 温控厂商受益趋势明确,电子散热加速国产替代03 投资摘要 uAI时代数据中心热密度加速提升,液冷应用成为刚需。智算中心需要在稳定温度环境中运行,温控技术必不可少。AI时代,算力芯片功率持续提升,设备功率密度触及传统风冷降温方式极限,液冷技术应用大势所趋。当前阶段,液冷应用主要采用冷板式技术;浸没式方案是长期发展方向。同时,国内PUE考核趋严,运营商液冷白皮书规划有望进一步加速国内液冷应用。 u液冷的通用架构可分为机房侧(包括一次侧设备和二次侧设备)以及ICT设备侧(如冷板模组等): Ø机房侧:二次侧设备包括Manifold、CDU、管路、动环系统等,一次侧设备主要包括室外冷水机组。目前冷板式液冷的单位价值量约在5000-6000元/kw,基于此我们预计国内液冷渗透率2024年进入加速期,对应2025年机房温控市场规模有望达140亿;ØICT设备侧:服务器液冷均热板已开始加速使用,与核心芯片(如GPU)为1:1对应关系,单位价值量约1000-2000元,2025年国内市场为30-60亿元。 u温控厂商受益趋势明确,电子散热加速国产替代: Ø产业链竞争格局:目前液冷仍处于产业发展初期阶段,服务器厂商、温控厂商、零配件公司、互联网大厂都参与其中,互相渗透,体现出竞争格局混乱的特征。但长期来看,解耦交付是大趋势。温控厂商依靠专业化的能力,产业链地位会逐步提高。其中,国产温控公司有望依靠定制化能力、服务响应、后期运维等优势逐步提高市占率。 Ø电子散热竞争格局:随着液冷技术不断成熟,本土公司对于部分零配件的生产能力逐步增强,有望由外采改为自己设计制造模式,从而逐步参与到电子散热市场中。同时,原先其它消费电子领域的公司,通过跨界,也参与到竞争中,在国产替代背景下,份额提升。 u投资建议:随着芯片功率提升、单机柜密度提升,液冷成为AIDC时代的必选散热技术。我们认为在长期解耦交付发展趋势下,具备系统级理解能力的专业温控厂商有望更为受益行业发展趋势,同时部分与芯片方案具有绑定关系的厂商竞争优势更为明显,重点推荐英维克,推荐关注申菱环境等。 重点公司盈利预测及估值 一、液冷温控:智算中心的稳定器 液冷温控——智算中心的稳定器 u温控对于保障高密度算力中心正常稳定运转有重要的意义。大多数服务器和网络设备的工作温度范围在5摄氏度至35摄氏度之间。为了确保设备的最佳运行状态和延长使用寿命,国际标准建议IDC机房的温度应控制在22摄氏度至24摄氏度之间。如果温度过高,设备容易过热导致损坏;如果温度过低,设备易产生冷凝水,导致短路和损坏。 u智算中心(AIDC)中,液冷不可或缺。随着智算中心所采用芯片功耗的提升、单机柜功率密度的快速增长,传统风冷逐渐触及温控性能极限,液冷温控成为算力中心温控的必备技术。 资料来源:维谛技术官网,国信证券经济研究所整理 资料来源:英维克官网,国信证券经济研究所整理 温控技术的原理与路径 u温控底层技术主要分为:风冷、冷冻水(间接蒸发冷)、液冷、相变材料、电子散热技术(导热材料散热、热管散热、均热板等)。u数据中心存量场景中以风冷为主,液冷技术的使用比例正不断提升 核心数据中心温控技术一:传统风冷 u风冷式冷水机组主要是利用制冷剂气体的循环达到冷却效果:1)压缩机吸入蒸发制冷后的低温低压制冷剂气体后压缩成高温高压气体送入冷凝器;2)高压高温气体经泠凝器冷却后使气体冷凝变为常温高压液体;3)常温高压液体流入热力膨胀阀经节流形成低温低压湿蒸汽,后再经过冷却后回到压缩机形成循环。 Ø优点:体积相对较小,免去冷却塔等安装设施;Ø缺点:制冷效果相对有限,易受到环境温度影响;Ø主要应用场景:数据中心、新能源、工厂、服务器等。 资料来源:瀚信德官网,国信证券经济研究所整理 核心数据中心温控技术二:间接蒸发冷 u水冷冷水机工作原理:主要利用液体的循环&交换降温:利用壳管蒸发器使水与冷媒进行热交换,冷媒系统在吸收水中的热负荷,使水降温产生冷水后,通过制冷压缩机的作用将热量带至壳管式冷凝器,由冷媒与水进行热交换,使水吸收热量后通过水管将热量带出外部的冷却塔散失(水冷却))。 Ø优点:能耗方面相对风冷更节能、受季节影响小全年降温效果更好;Ø缺点:前期设备投入较大、消耗水资源、后期维护成本高;Ø主要用用场景:工厂、互联网IDC、输配电升压站等。 u水冷与液冷差异:数据中心水冷一般指间接蒸发冷,实质是一种高端风冷,对机房内仍采用送风形式降温。 资料来源:华为数字能源白皮书,国信证券经济研究所整理 核心数据中心温控技术三:液冷 u液冷主要原理为用液体替代空气作为冷媒,为发热器件换热。相比风冷,液冷的主要原理是用液体替代空气作为冷媒,为CPU、芯片组、内存条以及扩展卡等发热器件进行换热,带走热量。在节能、成本、节地、芯片可靠性、机房环境等多维度,液冷相比风冷均具备优势。 u液冷主要可分为冷板式、浸没式、喷淋式三大类。按照接触方式,液冷主要可分为冷板式、浸没、喷淋式三大类。其中,按照是否相变,冷板式液冷可分为单相冷板式液冷、两相冷板式液冷,浸没式液冷可分为单相浸没式液冷、相变浸没式液冷。 资料来源:IDC《中国液冷数据中心发展白皮书》,国信证券经济研究所整理 液冷通用架构解析 u液冷系统通用架构可拆解为机房侧和ICT设备侧两部分,机房侧可进一步分为一次侧和二次侧两部分,浸没式和冷板式液冷在机房侧架构基本相同,差异主要在ICT设备侧: Ø一次侧:包含冷却塔、一次侧管网、一次侧冷却液(通常为水)。室外侧为外部冷源,通常为室外的冷水机组、冷却塔或干冷器,热量转移主要通过水温的升降实现;Ø二次侧:包含CDU、液冷机柜、二次侧管网和二次侧冷却液。室内侧包括供液环路和服务器内部流道,主要通过冷却液温度的升降实现热量转移;两个部分通过CDU中的板式换热器发生间壁式换热;ØICT设备侧:浸没式采用Tank安装制冷工质,ICT设备浸于其中;冷板式主要采用冷板贴于核心热源(CPU、GPU、内存)等上方。u制冷工质的选择:冷板式通常采用乙二醇/丙二醇溶液(基于防冻考虑)或去离子水;浸没式通常采用氟化液、矿物油(如硅油)等。 资料来源:中兴通讯《液冷技术白皮书》,国信证券经济研究所整理 资料来源:Vertiv官网,国信证券经济研究所整理 技术路线:冷板式应用占多数,浸没式方案亟待制冷工质革新 u冷板式和浸没式液冷方式各有优劣: Ø冷板式:优点在于设备改造幅度较小,兼容度、初始投资/改造成本较低,推广更为容易;缺点在于散热效率低于浸没式液冷,150KW以上机柜散热存在压力; Ø浸没式:优点在于散热效率最高;缺点在于制冷工质成本高,且常用的制冷工质氟化液具有致癌/激素紊乱等毒性问题,同时改造和初始投资成本大,对机房基础设施有更高要求。 u目前液冷方式以冷板式为主。冷板式液冷对于数据中心的改造难度较低,所需成本也较为可控,目前冷板式液冷的市场应用相对更加普及。根据IDC报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例达到90%左右,浸没式液冷渗透率仅为10%。 资料来源:IDC《中国半年度液冷服务器市场(2023全年)跟踪》,国信证券经济研究所整理 冷板式 u冷却液不直接接触电子器件。冷板式液冷技术通过冷板将发热元器件的热量间接传递给封闭在循环管路中的冷却液体,通冷却液体将热量带走。这种技术下,工作液体与电子器件不直接接触,而是通过液冷板等高效导热部件将被冷却对象的热量传递到冷却液中。 u特点:冷板式液冷兼容性强、易于维护,但存在节能收益不显著、标准化难度大的问题。作为三种主流技术中成熟度最高的方案,冷板式液冷能够有效兼容现有硬件架构、易于开展维护设计,且由于液体和设备不直接接触,可靠性更高。但由于未实现100%液体冷却,因此存在机柜功耗低、液冷占比低时,节能收益不显著问题;且液冷板设计需要考虑现有设备的器件布局,结构设计和实现的难度较大,标准化推进难度大。 资料来源:浪潮信息《全液冷冷板系统参考设计及验证白皮书》,国信证券经济研究所整理 单相浸没式 u单相浸没式液冷通常采用不导电冷却液,通过液-液热交换器交换热量。单相浸没式液冷系统中,IT设备所有的发热组件都完全浸没在循环的不导电的冷却液中,设备发出的热量直接传递给冷却液。单相浸没式液冷的冷却液通常具有较高的沸点,冷却液吸热后并不会发生相变,始终维持在液态 u优势:冷却液价格相对更低,部署成本更低;冷却液无相变,无需担心冷却液蒸发溢出或人员吸入的健康风险,更有利于维护。 资料来源:阿里云官网,国信证券经济研究所整理 资料来源:GRC,国信证券经济研究所整理 双相浸没式 u冷却液在遇热的情况下由液态转化为气态,随后通过冷凝器恢复为液态。冷却液在循环散热过程中经历从液态到气态再回到液态的相变过程。IT设备完全浸没在装有低沸点冷却液的密闭罐体中,热量被冷却液吸收,冷却液吸热后温度升高,由液态相变为气态。蒸汽从液体中升起逃逸至液面上方,在液冷罐体内形成气相区,冷却液蒸汽与水冷冷凝器接触,热量被吸收后凝结成液体再次循环,而冷凝器中被加热的冷却水则通过循环冷却水系统完成排热。 u优势:冷却液能够在受热时发生相变成为气态,能够更有效地利用相变潜热进行散热,从而提高散热效率。两相浸没式液冷的冷却液通常采用氟化液。 资料来源:GRC,国信证券经济研究所整理 资料来源:曙光数创官网,国信证券经济研究所整理 喷淋式液冷 u喷淋式液冷技术是面向芯片级器件的精准喷淋,在服务器内部部署喷淋模块,通过重力或系统压力直接将冷却液喷洒至发热器件上。u喷淋液冷具有器件集中度高、散热效率强、高效节能和静音的特点,通过喷嘴释放液冷剂并吸收热量,从而在电子设备周围形成冷却层,适用于高功率密度设备、及要求精密散热的领域。喷淋式冷却具备承重占地少、冷却液价格低等优势,且安装简单,可进行定向冷却。但存在设备选材及设备维护的局限性。 资料来源:兰洋科技官网,国信证券经济研究所整理 资料来源:兰洋科技官网,国信证券经济研究所整理 驱动力一:单卡功率提升,AIDC机柜风冷已达散热极限 u随着单卡功率的持续提升,AIDC集群的单机柜功率显著提升。H100单卡TDP 700W,对应单服务器设计功率约10kW,以标准单机柜4个AI服务器计算,单机柜功率超过40kW;预计B200单卡TDP将达到1000W,对应单机柜功率有望突破50kW。 u一般认为,风冷散热所适配的单机柜功率在4-40kW左右区间,液冷的最佳单机柜功率适配区间在50kw及以上水平。考虑到下一代Blackwell芯片单机柜功率有望突破50kW,风冷已达散热极限,采用液冷散热大势所趋。 资料来源:Vertiv官网,国信证券经济研究所整理 驱动力二:卡间高速互联规模扩大,单机柜功率密度提升 u海外芯片厂商中,英伟达已先后推出GH200、GB200等机架式方案,扩大卡间互联规模。英伟达通过私有协议NVLink实现卡间互联,在此前GH200方案中,英伟达采用2层fat-tree网络结构实现256张GH200超级芯片互联;GB200架构中,英伟达推出NVL72方案,单机柜集成72个全互联的Blackwell芯片,英伟达也推出双机柜(NVL36)方案,也可通过2层NVLink交换实现最大576个GPU的全互联。u国内芯片厂商也推出相应卡间互联协议。如华为的HCCS(high-speed cache coherence network)、寒武纪的MLU-LINK、燧原的GCU-LARE和壁仞的B-LINK等,考虑到产业趋势明确,基于国内卡间互联协议的机架式方案有望加速应用。 资料来源:昇腾官网,国信证券经济研究所整理 资料