您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [开放数据中心委员会]:数据中心预测性维护白皮书 - 发现报告

数据中心预测性维护白皮书

报告封面

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写组 项目经理: 工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 潘兵阿里云计算有限公司王宏宇阿里云计算有限公司李东昂阿里云计算有限公司钟光耀阿里云计算有限公司王雪萦阿里云计算有限公司陶辰阳阿里云计算有限公司孙屹林阿里云计算有限公司来嘉骏阿里云计算有限公司刘国良阿里云计算有限公司王加龙阿里云计算有限公司关通阿里云计算有限公司徐雷阿里云计算有限公司颜雨潇阿里云计算有限公司晁怀颇阿里云计算有限公司许可欣中国信息通信研究院 前言 数据中心的安全、稳定、高效运营是云服务的基础,在此背景下,我们仔细分析了近几年内发生过的大大小小的事件及故障,发现了一个特点,那就是“千里之堤毁于蚁穴”。很多重大故障的发生并不是一蹴而就的,往往是毫厘之间的细小问题不断积累,同时又不能够得到及时的处理,多重问题同时发生,才会引起重大故障。并且,我们还发现,在重大故障案例发生前,往往提前伴随着一项或多项数据的异常波动或变化,但是这些变化又都是在监控范围之内很难被发现的。根据以上背景,如果能够在设备的运行数据发生异常时便检测出来,提前进行相应的维护处理,就有足够的时间避免故障的发生。 本项目主要通过类比中医诊脉的理论,通过梳理暖通系统核心设备的关键运行参数以及其关键测点,借助于智能化手段和传统的设备运行理论经验相结合,通过智能化管理平台对数据中心的设备进行精细化管理。探索数据中心的预测性维护该如何去践行。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 目录 版权声明............................................................I编写组.............................................................II前言............................................................III IV一、背景介绍.......................................................1(一)工业预测性维护发展.......................................1(二)传统故障预测介绍.........................................2(三)基于运行参数的预测性维护.................................3二、设备类型及测点.................................................3(一)设备类型及性能指标.......................................4(二)基线测点.................................................4三、理论及经验基础.................................................7(一)理论基础.................................................7(二)四类参数异常.............................................8四、智能化管理平台.................................................9(一)场景库管理...............................................9(二)模型库管理..............................................10(三)闭环管理................................................11(四)测评体系................................................12五、智能监控算法..................................................13(一)有监督方法..............................................13(二)无监督方法..............................................15(三)自适应模型..............................................15 六、预测性维护标准................................................16 (一)维护分类................................................16(二)维护周期定义............................................17(三)预测性维护标准..........................................18七、展望..........................................................19(一)预测性维护..............................................19(二)绿色设备管理............................................20(三)大数据驱动的维护体系....................................20 数据中心预测性维护白皮书 一、背景介绍 伴随着工业化、信息化和经济全球化的发展,研究设备生命周期过程中的维护、维修、汰换等管理过程的运维工程学出现了新的突破,在新的技术和管理策略中,设备生命周期的管理也更加科学、智能和经济。其中以故障预测为主要技术手段的预测性维护便伴随着更加科学和智能的检测手段的发展在运维工程学领域占据了越来越重要的位置。 (一)工业预测性维护发展 事实上,早在20世纪80年代,在工业生产活动中便提出了以设备运行状态为基础的维修体制,相对于事后维修和以时间为周期的计划性维护,其主要特征便是在提前发现设备的状态劣化时对其进行提前维护处理,并减少不必要的计划性维护,实现经济性和稳定性的平衡。在高速发展的今天,传统工业领域已经在故障预测和预测性维护领域取得了长足发展,并且得到了广泛的应用。 但是,逐渐趋于智能化的今天,数据中心的智能化运维目前在此方面的研究仍然较少,因此,本项目以保障数据中心生产过程的稳定性为总目标,通过专家经验及预测性机器学习算法,本着提前发现,提前解决的原则,参考状态监测、故障诊断、维护决策等在 工业领域的先进经验,将预测性维护引入数据中心,为数据中心的智能化运维添砖加瓦。 (二)传统故障预测介绍 预测性维护是通过实时或定期地检测设备的运行状态,结合大数据、机器学习等新兴技术预测设备的健康状态,进而在设备停机前发现设备的异常,提前进行一系列的维护保养工作。其重点就是对设备的故障进行诊断和预测,目前主要应用的方法为:振动检测、噪声检测、红外热成像、超生波检测、摩擦学检测等等。 但是,对于预测性维护,想要完成最重要的故障预测环节,主要有以下四个方面的困难: 基于以上的难点和现状分析,目前需要快速在数据中心领域落地的方案就是解决传感器的问题,或者重新寻找一种新的评价方法。 (三)基于运行参数的预测性维护 本节主要介绍通过类比中医的诊脉和西医的B超、CT等医疗手段的区别,然后分析是如何从传统的故障预测联想到本白皮书所用的故障预测手段。 同样的,对于机器设备的运行状态,传统的手段是利用设备的噪声、振动等信息来进行诊断和预测。通过类比中医诊脉的方式,也可以通过设备的运行参数变化来预测设备的健康状态。 二、设备类型及测点 对于数据中心的预测性维护而言,我们主要的目的有两个,一个是稳定性目标,一个是经济性目的。但是无论出于什么目的,首先我们要确定的是我们要对哪些设备做预测性维护,以及这些设备的性能指标是什么?要想对这些性能指标做预测,我们需要的测点是哪些?本章节主要确定了本次针对数据中心的预测性维护涉及的设备类型以及需要的基线测点。 (一)设备类型及性能指标 通过梳理水冷架构以及风冷架构的制冷全链路,我们主要梳理出了以下9类核心暖通设备,以及对各核心设备要监测的核心运行参数进行了梳理。 (二)基线测点 对于每个性能参数的预测都需要很多工况参数来进行辅助,因此本节定义了要完成预测性维护,每种设备需要的测点。并且定义了这些测点的单位、精度要求、以及可能的合理工作区间。 注:关于工作区间,目前为市场主流设备的工作正常工作区间,实践中可根据自身设备运行情况进行调整。 三、理论及经验基础 要想对设备的性能或者稳定性进行更为准确的预测,很显然,直接生搬硬套机器学习算法是无法做到的,一方面浪费大量的算力资源,另一方面很容易像无头的苍蝇乱撞,因此本章主要总结了此项目用到的设施理论基础的经验总结。 (一)理论基础 很多的暖通设备,其主要工作原理涉及《流体力学》、《工程热力学》、《传热学》等等的知识,因此本节梳理了一下在本项目中所用到的主要理论知识。主要包含了质量守恒、能量守恒、性能曲线、以及一些状态关系等等。 1、质量守恒: ∑q一次泵=∑q蓄冷罐+∑q总管∑q流入=∑q流出∑q总管=∑q二次泵修正值d(含湿量)=f(T,RH) 2、能量守恒: c1m1∆t1= c2m2∆t2 3、性能曲线: f=kqCOP=q∆t/Pλ=q∆t/tm 4、状态关系: 运行:水阀状态=1、频率状态=x停机:水阀状态=0、频率状态=0P上游>P下游 (二)四类参数异常 中医诊脉中,有不同的脉象,在基于性能参数的预测中,也是有不同的异常类型,根据经验分析,我们将异常类型抽象为以下4类,分别是参数劣化、参数波动、批次偏移、逻辑异常。 参数劣化:预估设备的性能发生劣化程度,提前安排处理计划,进行预测性维护,减少故障停机。 参数波动:根据数据异常波动,预测设备运行开始不稳定,在故障爆发前进行处理。 批次偏移:根据某台设备的数据偏移,预判某一批次或某台设备异常,发现批次性问题,进而进行技术优化。 逻辑异常:根据测点间的对应关系及专家模型,发现传感器故障问题。 四、智能化管理平台 针对预测性维护,建立了一系列的线上化管理流程,主要包括场景库管理、模型库管理、闭环管理策略以及测评体系。 (一)场景库管理 场景库管理是建立一套标准化、统一的场景模型,对预测对象、参数、作用域、结果等多方的标准化锚定,同时也是执行预测的先决条件。场景库管理主要包含以下内容: 1、预测对象:场景模型依附于设备类型,对设备所可能发生的故障和异常进行归类定义,通过实例化过程将预测结果具象化到设备个体; 2、场景模型参数:参数定义了一系列场景模型的输入和输出,规范且保障算法模型的数据质量,其中输入主要来源于现场设备采集的测点数据,输出是由算法自定义产出的预测结果数据; 3、作用域:通过作用域范围圈定,如机房、园区、楼等维度,可以将抽象的场景模型具象化,聚焦于具体设备故障预知; 4、输出结果:建立多元化预警方式,如消息、任务单、智能告警等,第一时间告知现场预测结果,快速收敛故障并反馈预测算法模型。 (二)模型库管理 模型库管理是在对预测场