AI智能总结
白皮书 (2024年1月) 版权保护文件 版权所有归属于该文件的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。 目次 前言..........................................................................................................................................................III1概述................................................................................................................................................................12发展趋势........................................................................................................................................................13术语................................................................................................................................................................14缩略语............................................................................................................................................................25总体描述........................................................................................................................................................25.1冷板式人工智能服务器组成.................................................................................................................25.2冷板式人工智能加速卡组成.................................................................................................................36技术方案........................................................................................................................................................36.1设计要求.................................................................................................................................................36.2外观要求..................................................................................................................................................46.3结构要求..................................................................................................................................................46.4热性能要求..............................................................................................................................................66.5可靠性要求..............................................................................................................................................7参考文献......................................................................................................................................................9 前言 本文件由中移动信息技术有限公司提出。 本文件由开放计算标准工作委员会归口。 本文件起草单位:中移动信息技术有限公司,浪潮电子信息产业股份有限公司,上海壁仞智能科技有限公司,中科寒武纪科技股份有限公司,上海燧原科技有限公司,宁畅信息技术有限公司,中科可控信息产业有限公司,新华三技术有限公司,史陶比尔(杭州)精密机械电子有限公司,中航光电科技股份有限公司,京东云计算有限公司,百度在线网络技术(北京)有限公司。 本文件主要起草人:李圣义,杨洋,李金波,刘广志,罗竣峰,李明杰,周立志,邸贺亮,张政,黄乾明,王辉,朱重兴,孙鹏,李壮,谢泽邦,王周杰,廖嵬,聂超,高亦廷,梅敬青,王思善,王海岩,韩学磊,李伟祖,王伟,李鹏,谢地,董永申,李进宝,王贵林,蔡岳霖,金跃红,郑建武,高从文,刘玲,董少杰,郗卓宁,傅浩杰。 基于标准PCIe接口的人工智能加速卡液冷设计指南 1概述 冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求,服务器针对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配,耗费大量人力、物力。本技术白皮书主要制定标准PCIe接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能设计、可靠性设计方面的要求,用于指导冷板式人工智能加速卡的设计。通过本白皮书提供的设计指导,降低服务器和冷板式人工智能加速卡之间的适配难度,降低适配的成本和人力投入。同时降低部署和运维难度,方便终端客户根据业务场景灵活选择相应产品,加速液冷式人工智能加速卡和服务器产品上市。此外,通过统一的设计指导,在冷板本体、流体快插接头等关键组件上产生规模化效益,获取低成本液冷解决方案,推动冷板式液冷技术的普及。 2发展趋势 以AIGC为代表的人工智能大模型的发展,带来了算力需求的指数式提升。AI芯片需要通过提升工作频率或增加运算单元来获得更强的算力,带来人工智能加速卡功耗的不断提升。当前人工智能加速卡单卡功耗已达到350W至600W量级,带来服务器散热功耗的显著提升,在给服务器散热设计带来挑战的同时,也给建设绿色数据中心带来了很大的挑战。液冷技术成为解决人工智能服务器高功耗散热问题、降低数据中心PUE的关键,其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。目前标准PCIe接口形态的人工智能加速卡仍然是业界主流,国内外部分厂商已经推出了相应的冷板式人工智能加速卡,但均是按照自身产品形态特征进行设计,未考虑同行业其他厂商情况,不能作为标准化设计。 同时,虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用,但在标准PCIe接口形态的人工智能加速卡上的应用仍然很少,业界迫切需要一个针对标准PCIe接口形态人工智能加速卡的液冷设计指导,来推动冷板式散热技术在人工智能加速卡应用的普及。 3术语 3.1 冷板式液冷cold plate liquid cooling 通过冷板(通常为铜铝等导热金属构成的封闭腔体)将发热器件的热量间接传递给封闭在循环管路中的冷却液体,通过冷却液体将热量带走的一种实现形式。 3.2 冷板式人工智能加速卡cold plate liquid cooling artificial intelligence accelerator card 专为人工智能应用设计,通过冷板进行散热的硬件加速器,可用于提升机器学习和深度学习的速度和性能,从而更好地满足人工智能应用的需求。 3.3 冷板式人工智能服务器cold plate liquid cooling artificial intelligence server OCTC BA01—2024 配备了冷板式人工智能加速卡的服务器,可为人工智能应用提供高效能计算处理能力。 机柜冷却工质供回歧管rack coolant manifold 用于向机柜内各液冷冷板分配冷却工质的装置。 3.5流体快插接头hydraulic quick disconnect一种包含插头和插座、且插头和插座都带流体截断功能的快速插拔组件。 4缩略语 下列缩略语适用于本文件。 AI人工智能(Artificial Intelligence)AIGC生成式人工智能(Artificial Intelligence Generated Content)ASIC专用集成电路芯片(Application Specific Integrated Circuit)CEM板卡机电(Card Electromechanical)CPU中央处理器(Central Processing Unit)EMC电磁兼容性(Electromagnetic Compatibility)FPGA现场可编程门阵列(Field Programmable Gate Array)GPGPU通用图像处理器(General-purpose computing on graphics processing units)PCIe高速外围组件互连总线(Peripheral Component Interconnect Express)PUE数据中心电能利用率(Power Usage Effectiveness)RCM机柜冷却工质供回歧管(Rack Coolant Manifold)VR电压调节器(Voltage Regulator) 5总体描述 5.1冷板式人工智能服务器组成 人工智能服务器组成如图1所示,主要包括通用计算子系统、异构加速子系统、存储子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统、输入输出设备等组成。其中异构加速子系统配备了面向人工智能应用的加速器,例如GPGPU卡、AI ASIC卡、FPGA卡等,可为人工智能应用提供高效能计算处理能力。 人工智能服务器基于散热子系统实现方式的不同,可分为风冷式人工智能服务器和冷板式人工智能服务器,其中冷板式人工智能服务器是本文研究的重点。 冷板式人工智能服务器CPU和人工智能加速卡应采用冷板进行散热,内存等其它高功耗部件宜采用冷板散热,以进一步提升液冷散热的占比,降低数据中心PUE。设计上需要应减少