您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:2021浸没液冷服务器可靠性白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

2021浸没液冷服务器可靠性白皮书

2021浸没液冷服务器可靠性白皮书

浸没液冷服务器 可靠性白皮书 [编号ODCC-2021-05012] 开放数据中心委员会 2021-09-15 发布 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 i 目 录 前 言 ....................................................................................................... iii 版权说明 .................................................................................................... iv 浸没液冷服务器可靠性白皮书 ................................................................ 1 1. 引言 ........................................................................................................ 1 2. 传统风冷数据中心故障情况 ............................................................... 2 2.1. 温度诱发故障的机理 .................................................................. 2 2.2. 振动诱发故障的机理 .................................................................. 3 2.3. 湿度诱发故障的机理 .................................................................. 4 2.4. 灰尘诱发故障的机理 .................................................................. 4 3. 空气冷却与浸没液冷下对电子设备的环境应力差别分析 ............... 6 3.1. 湿度对比....................................................................................... 6 3.2. 振动对比....................................................................................... 6 3.3. 灰尘对比....................................................................................... 6 4. 阿里云浸没式液冷服务器运行状态分析 ........................................... 6 4.1. 浸没液冷服务器运行失效率分析 .............................................. 7 4.2. 服务器各部件失效率统计结果 .................................................. 8 5. 阿里云浸没式液冷服务器长期运行后可靠性评估 ........................... 8 5.1. 服务器系统运行稳定性及性能分析 .......................................... 8 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 ii 5.2. 服务器主板物理特性分析 .......................................................... 9 5.3. 服务器主板信号完整性分析 .................................................... 11 5.4. 服务器主板电源完整性分析 .................................................... 12 5.5. 服务器电源模块PSU可靠性分析 ........................................... 13 5.6. 服务器机箱结构件可靠性分析 ................................................ 14 5.7. 冷却液长期可靠性分析 ............................................................ 15 6. 总结 ...................................................................................................... 16 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 iii 前 言 本规范感谢以下起草单位和起草者: 起草单位:阿里巴巴集团基础设施事业部,中国信息通信研究院(云计算与大数据研究所) 起草者:钟杨帆,郭锐,方海宾,迟海,李小鹏,曹洪浩,向蓓,孙春甲,练恒,黎安宇,永宝,谢可可,朱宗鹏,张京 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 iv 版权说明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 1 浸没液冷服务器可靠性白皮书 1. 引言 大数据、云计算技术的快速发展,让世界变的更加互联、人类生活日趋便捷的同时,也将需要越来越多的计算能力。硅芯片逐步逼近物理和经济成本上的极限,各界纷纷预测,摩尔定律再不久的将来面临失效,半导体工艺升级带来的计算性能提升不能再像以前那么快了。如何应对未来高算力需求的挑战:一个方向是借助服务器内部构建更多的计算单元提升单机计算力,而这直接导致芯片功耗及散热成为新挑战。另外一个方向是云计算,云计算令计算资源集中化,高密度的提升必然带来热密度的上升,对于支撑服务器稳定运行的数据中心而言则带来巨大的散热挑战。阿里云通过长期摸索实践,通过浸没液冷技术形成商用规模的液冷集群,实现了从0到1的突破,完美的解决了高密度高功耗下的计算环境问题,很好的解决了这两个挑战。 云计算数据中心承载的服务量巨大,涉及到的云客户业务种类也比较多,如果出现故障,它的影响深度和广度就会非常大,所以需要有很高的可靠性。对于重要公司和机构而言,数据中心就是其业务运转的心脏,一旦出现问题,损失的不仅是金钱,还有其整体的形象和声誉,因此数据中心的可靠性就变得至关重要。 《浸没液冷服务器可靠性白皮书》(以下简称“白皮书”)由阿里云基础设施事业部服务器研发团队编写。白皮书作为行业首个全景式液冷服务器可靠性白皮书文档,在基础设施云化、核心技术互联网化、应用数据化和智能化的新基建时代背景下,传统制冷系统逐步面临瓶颈,液冷技术生态化正在加速形成。 浸没式液冷是数据中心的跃迁式技术创新,具有高能效,高密度,高可用和高可靠等特性。此白皮书以阿里云在浸没液冷应用多年实践得来的可靠性评估为切入点进行全面解读。白皮书旨为浸没式液冷数据中心行业从业者提供具有指导性、 操作性的参考资料,希望能够在从风冷到液冷服务器转型过程中提供有效 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 2 赋能。 2. 传统风冷数据中心故障情况 目前电子设备普遍采用空气冷却方式,其复杂多样的环境是电子产品在使用过程中难以回避的问题,环境的多样性包括温度、湿度、振动、灰尘等多个方面。 2.1. 温度诱发故障的机理 在高温的环境条件下,电子设备一般会产生过热的现象。过热是电子设备产生故障的主要原因之一。故障是使设备性能退化的化学或物理变化引起的。因为随着温度的增加,电子、原子、分子的运动速度加快,使得电子设备的性能发生变化。随着设备的老化,这些变化逐渐出现;当达到一定阶段时。就引起严重的故障。到产品产生故障的时间受这些化学或物理变化的过程的速率控制,而这一速率大致按指数规律随温度的升高而增加。已经发现。在高于一般室内环境温度(约20°C-25°C)范围内条件下,故障率大致按指数规律随温度的升高而增加。 高温激发出的主要的故障模式如下: (1)不同材料膨胀系数不一致使零件粘结在一起; (2)润滑剂粘度降低。润滑剂外流使连接处损失润滑能力; (3)包装、村垫、密封、轴承和轴发生变形、粘结和失效,引起机械性的故障或破坏完整性; 另外当温度在上、下限温度循环时,电子设备交替膨胀和收缩,会使设备中产生热应力和应变。如果某些电子装备产品内部有瞬时的热梯度(温度不均匀性),或产品内部邻接材料的热膨胀系数不匹配,则这些热应力和应变将会加剧。这种应力和应变在缺陷处最大,它起着应力集中的作用。这种循环加载使缺陷长大。最终可大到能造成结构故障并产生电性能故障。例如,有裂纹的电镀通孔其周围最终完全开裂,引起开路。热循环是使钎焊接头和印制电路板上电镀通孔等产生故障的首要原因。持续时间受温度循环次数控制,每次循环。应力应变方向变化 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 3 一次,循环次数也是应力应变方向的变化次数。温度变化范围越大,电子装备产品内受到的应力,应变范围越大,产品内缺陷发展为故障所需的应力应变次数(也即循环次数)越少。 温度循环激发出的主要故障模式如下: (1)使涂层、材料或线头上各种微观裂纹扩大; (2)使粘接不好的接头松弛; (3)使螺钉连接或铆接不当的接头松弛; (4)使机械张力不足的压配接头松弛; (5)使质量差的钎焊接触电阻加大或造成开路; 2.2. 振动诱发故障的机理 随机振动是在很宽的频率范围内对产品施加振动。产品在不同的频率上同时受到应力,使产品的许多共振点同时受到激励。这就意味着具有不同共振频率的元部件同时共振。从而使安装不当的元件受扭曲,碰撞等而损坏定额概率增加。振动应力对揭示那些对反复的结构变形或相对运动敏感的缺陷是有效的。电路板或导线接头是在重复性应力作用下可能导致损坏性裂纹增长的例子。 振动激发出的主要的故障模式如下: (1)结构部件、引线或元件接头产生疲劳,特别是类适于导线上有微裂纹、微观裂纹和类似的缺陷; (2)电缆磨损,如在松弛的电缆结处存在类似于尖缘那样的缺陷时; (3)制造不当的螺钉接头松弛; (4)安装加工不当的集成电路片离开插座; ODCC-2021-05012 浸没液冷服务器可靠性白皮书 4 (5)汇流条及其连到电路板上的钎焊接头受到高应力引起的钎接头薄弱点失效; (6)与可做相对运动的部件桥形连接的元件引线没有充分消除应力而造成损坏,例如电路板前板的发光二极管或在背板散热箱的功率晶体管; (7)已损坏或安装不当的脆性绝缘材料中出现裂纹。 2.3. 湿度诱发故障的机理 潮湿环境的影响是指产品或材料在潮湿条件下发生外观或物理、化学和电性能方面的劣化并导致设备功能性失效综合作用。在工作环境中有各种大气污染物质可能强化潮湿气候的影响,例如各种腐蚀性气体与潮湿的共同作用将加剧金腐蚀的速度,而某些容易吸收水分的尘埃将助长试验样品表面凝露或水气吸收,从而加剧表面绝缘性能的下降。又如某些材料表面受