您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:液冷,AI时代的下一个“光模块”-AIGC行业深度报 - 发现报告

液冷,AI时代的下一个“光模块”-AIGC行业深度报

电子设备2024-07-26华西证券落***
AI智能总结
查看更多
液冷,AI时代的下一个“光模块”-AIGC行业深度报

华西计算机团队2024年7月24日 分析师:刘泽晶SAC NO: S1120520020002邮箱:liuzj19hx168.com.cn 分析师:孟今儒奇SAC NO:S1120524060001邮箱:menglrq@hx168.com.cn 目录 01液冷已经从“选配”到“必配”02深度拆解液冷的核心价值链03梳理液冷产业链的受益公司04投资建议05风险提示 液冷已经从“选配”到“必配01 1.1算力在大模型时代迎来爆发,光模块需求高增 大模型参数呈现指数规模,引爆海量算力需求:根据财联社和Open4I数据,ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传前速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达方亿级别,因此对算力需求也随之攀升, 大模型参数量的增长,数据中心互联互通成为核心关键:在万亿级大数据的背景下,单卡/单服务器算力已经无法支撑庞大模型的训练而芯片与芯片之间的互联成为重中之重,集群的效应显得尤为关键,因此在AI的大背景下,由于叶脊网络架构中的服务器交换流量较大因此服务器与交换机互联的统一互联互通的数据中心均使用光模块,而光模块传输速度越高,证明其互联互通的效率也就越高,因此在整体算力芯片架构升级的大背景下,传输速率较高的光模块成为当下的首选 1.1算力在大模型时代迎来爆发,光模块需求高增 A高速互联时代,高算力与高效传输架构指匹配:复盘英伟达数据中心芯片产品,其中明显可以看到显存带宽与互联互通传输速度的稳定增长。 1.1算力在大模型时代迎来爆发,光模块需求高增 英伟达Blackwell架构发布,传输速率更上一层楼:可以看到英伟达Blackwell架构下的新品传输速率和显存带宽相较于Hopper架构有显著提升; 为什么说液冷是A的下一个光模块:电子产品升级送代规律使然,从上文证实的光模块成长路径,A高速互联时代,高算力与高效传输架构相匹配。从40G取代10G,100G取代40G,400G取代100G,800G取代400G,1.6T有望取代800G,升级之路永不停息,全部体验到从“奢侈”、“尝鲜”到“普及”、““刚需”的过程。同样,散热领域也是相同,相关技术也在提升,先是自然风冷、空调风扇散热片,继而是液冷。液冷也有喷淋式、冷板式和浸没式等等。 为什么说液冷已经从“选配”到“必配” 芯片:环境温度对芯片的影响不容忽视,高温环境下,芯片内部的电子元件会因为长时间工作而受到损耗,从而缩短芯片的使用寿命温度升高会引起电容、电阻以及金属线等材料的热膨胀,进而导致它们的机械变形和结构破坏,最终影响芯片的正常运行。根据与非往消息,而单从芯片来看,风冷的极限芯片散热功率是800W,英伟达部分产品已经突破风冷能力上线, 根据与非网数据,2025年AI集群算力单机柜密度将有望到20-50kW,也远远超出了风冷的上限, 1.1算力在大模型时代迎来爆发,光模块需求高增 A高速互联时代,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关 英伟达部分产品已经超过风冷极限:如下图所示,GH200以及最新款B200、GB200的功耗已经超过风冷极限,H200和B100的功耗已经接近风冷极限; 1.3液冷政策为液冷市场扎入“强心剂 PUE值(电能利用效率)是衡量数据中心绿色程度的关键指标。PUE(PowerUsageEffectiveness),即电能利用效率。PUE是数据中心消耗的所有能源与IT负载消耗的能源的比值。PUE的值越高,数据中心的整体效率越低。当该值超过1时,表示数据中心需要额外电力开销以支持IT负载。PUE值越接近于1,说明数据中心的电大部分被服务器、网络设备、存储设备消耗,该数据中心的绿色化程度越高。在数据中心中,制冷系统能耗占数据中心总体能耗较高。根据中国通信学会通信电源委员会数据,在典型的数据中心能耗构成中,比重最大部分为IT设备,占比50%,其次为制冷系统设备,占比35%,最后为供配电系统设备以及其他消耗电能的数据化中心设施。在制冷系统中,主要包括空调设备、提供冷源设备以及新风系统,具体能耗构成如下表所示。 与传统风冷相比,液冷技术PUE值普遍更低。根据CSDN数据,传统风冷的PUE值大概为1.3,而采用液冷技术,PUE值会显著降低,其中采用传统冷板技术的PUE值大概为1.2,浸没液冷的PUE值在1.05-1.07之间, 1.3液冷政策为液冷市场扎入“强心剂 国家政策对PUE值要求趋紧,呈逐年下降趋势。根据国务院相关部门文件,对于新建大型及以上数据中心,在总算力要求提高的同时,还要求其PUE值在2021年底降至1.35以下;到2023年底,降低到1.3以下,严寒和寒冷地区力争降低到1.25以下;到2025年底,在此基础上绿色低碳等级达到4A级以上 制冷系统政策导向明显,利好液冷技术。2023年,在财政部等三部门联合发布文件《绿色数据中心政府采购需求标准(试行)》中,明确提出,鼓励数据中心相关设备和服务优先选用新能源、液冷、分布式供电、模块化机房等高效方案。 1.3液冷政策为液冷市场扎入“强心剂 各省、一级PUE标准向国家政策标准靠拢。在国务院政策标准基础上,将数据中心细化为大型及超大型数据中心及中小型数据中心;存量改造智算中心及新建智算中心,进行差异化政策制定。对大型、超大型数据中心以及新建数据中心要求更严格。 液冷机柜数量开始列入政策硬性要求,2024年3月,上海市通信管理局等11个部门联合印发《上海市智能算力基础设施高质量发展“算力浦江智算行动实施方案(2024-2025年)》正式发布。该方案表示:至2025年,新建智算中心PUE值达到1.25以下;存量改造智算中心PUE值达到1.4以下;智算中心内绿色能源使用占比超过20%,液冷机柜数量占比超过50%。 1.4深度绑定英伟达,维谛技术(Vertiv)迈向成长 维递技术数字建设基础设施的提供商:提供硬件、软件、分析和延展服务技术的整体解决方案,帮助现代数据中心、通信网络、商业和工业设施用户所面临的艰巨挑战,提供全面覆盖云到网络边缘的电力、制冷和IT基础设施解决方案和技术服务组合,其前身为艾默生该公司专注于提供关键基础设施技术及服务,包括电源、热管理和IT基础设施解决方案 公司数据中心产品与服务是公司的核心竞争力,最主要包括电力、热管理等一体化的解决方案 关键电源管理:可提供直流电源、交流不间断电源、配电、变频器、电源监控等一系列解决方案热管理:即风冷、液冷整体解决方案等IT管理:即一体化解决方案、后续市场的监控、管理、服务等等。 1.4深度绑定英伟达,维谛技术(Vertiv)迈向成长 维谛技术收购CoolTera,强强联合加大强液冷布局:2023年12月11日,根据今日热点网消息,维谛技术子公司将收购购数据中心液冷技术基础设施提供商CoolTera全部股份和相关资产。CoolTera成立于2016年,是一家总部位于英国的数据中心液冷基础设施解决方案家,具备冷量分配单元、二次侧管路和Manitold的专业原厂研发设计制造能力。此前,Vertiv与CoolTera在液冷技术领域已密切合作三年,共同部署了全球多个数据中心和超算系统。我们判断,本次收购进一步增强了Vertiv的热管理能力和行业影响力, Vertiv参与了英伟达COOLERCHIPS计划,并被指定为唯一的制冷系统合作伙伴:我们判断AIGC与液冷趋势有望稳定其龙头地位此前Vertiv已经与英伟达专家团队进行高密度数据中心制冷方案进行测试,根据极目新闻消息,实测结果显示IT负载从100%风冷转型根据搜狐网消息,今年3月,英伟达NVIDIA与维谛Vertiv共同提出的机架式混合冷却系统方案,是业界首次将两种液冷技术:冷板液冷和浸没液冷耦合到同一系统中的解决方案这项创新系统预计可冷却运行环境高达40℃的机架式数据中心,单机柜T功率可达200kW,是目前常规服务器单机柜功率的25倍。与传统风冷相比,两种液冷混合冷却模式的成本更低,运作效率可提高20% 1.4深度绑定英伟达,维谛技术(Vertiv)迈向成长 年公司基础设施产品收入为160.36亿元,占比为56.23%,2023年收入为315.12亿元,占比为64.83%,增速为30.19%,超过公司收入增速。 美洲为公司销售产品的核心地区:复盘公司2020年至2023年地域收入,美洲(拉丁美洲)为公司核心销售区域,2020年美国和加拿大公司公司收入为121.24亿元,占比42.51%,2023年美洲地区相关收入为275.15亿元。 踏浪AIGC,公司股价迎来增长:公司2023年3月31日股价为11.75美元,公司2024年7月24日公司股价为91美元,我们判断其背后的原因为由于AIGC爆发,公司相关液冷数据中心产品业绩迎来高增。 02深度拆解液冷的核心价值链 2.1液冷的概念及分类及比较 液冷:一种确保计算机在安全的温度下运行的冷却方法。液冷技术通过利用流动液体的高比热容来吸收并迁移计算机内部元件产生的热量到外部,这种方法的优点在于利用液体传热,相较于空气,液体的高比热容能更高效地传递热量,从而降低能量消耗液冷技术根据接触方式不同,分为直接液冷技术和间接液冷技术。间接液冷技术中,冷却液体与发热器件不直接接触,主要包括冷板式。直接液冷技术中,冷却液体与发热器件直接接触,主要包括浸没式和喷淋式液冷,其中浸没式根据冷却介质是否发生相变又可分为单相浸没式和相变浸没式。与传统风冷技术相比,液冷技术节能效果显著提高。根据绿色高能绞效数据中心散热冷却技术研究现状及发展趋势》数据显示。风冷散热下数据中心的PUE值通常在1.5左右:根据开放数据中心委员会0DCC数据,冷板式液冷PUE值为1.1-1.2,相变浸没式液冷PUE值小于1.05单相浸没式液冷PUE值小于1.09,喷淋式液冷PLE值小于1.1。 2.1液冷的概念及分类及比较 冷板式液冷技术:通过设置在设备内部的液冷板间接传递发热器件的热量至循环管路中的冷却液体,利用冷却液体将热量有效带走,实现散热,为设备提供一种高效的散热方式。和集中式CDU。集中式CDU适用于规模部署液冷服务器机柜的场景。冷板式液冷目前应用最广泛,具有诸多优势。存量的数据中心机房由风冷向液冷改造时,冷板式液冷的改造成本相对更低。同时,其PUE值更低(1.2)、可实现在线维护方案 2.1液冷的概念及分类及比较 浸没式液冷技术:一种通过将发热器件完全浸没于冷却液中,实现部件与冷却液之间直接接触目发生热交换的冷却方法。浸没式液冷系统室外侧包含冷却塔、一次侧管网、一次侧冷却液:室内侧包含CDL、浸没腔体、IT设备、二次侧管网和二次侧冷却液, 单相浸没式液冷:在热量传递过程中,传热介质二次侧冷却液只会经历温度的改变,没有发生任何相态的变化,即热量的传递完全依赖于物质的感热变化。制冷过程:CDU的循环泵推动二次侧的冷冷却液自浸没腔体的底部进入,在流过竖直放置于浸没腔中的IT设备时,移走设备转移给一次侧的冷却液。然后,已经升温的一次侧冷却液经过冷却塔,将热量释放至大气中,完成整个冷却过程, 次侧冷却液只在浸没腔体内循环,且浸没腔体内部形成了液态和气态两个区域:顶部为气态区,底部为液态区。IT设备被完全沉浸在具有低沸点的液态冷却液中,当冷却液吸收了设备产生的热量后沸腾并转化为高温气态。这些气态冷却液的密度较低,会逐渐上升到浸没腔体的顶部,在那里与顶部的冷凝器进行热交换并冷凝成低温的液态。这些冷却液在重力的作用下重新回到腔体底部,从而完成IT设备的散热过程 2.1液冷的概念及分类及比较 喷淋式液冷:一种将冷却液直接喷洒到芯片级器件或其连接的导热元件上的直接接触式冷却方式,通过重力或系统压力实现精准冷却这种系统主要包括冷却塔、冷却配送单元(CD