您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:数据中心智能传感网络开放体系白皮书 - 发现报告

数据中心智能传感网络开放体系白皮书

AI智能总结
查看更多
数据中心智能传感网络开放体系白皮书

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写组 项目经理: 杨朴腾讯科技(深圳)有限公司 工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 颜小云腾讯科技(深圳)有限公司张术腾讯科技(深圳)有限公司周瑞旭腾讯科技(深圳)有限公司林锐锋腾讯科技(深圳)有限公司樊驿隆腾讯科技(深圳)有限公司李小明腾讯科技(深圳)有限公司庞孟羽腾讯科技(深圳)有限公司龙永明腾讯科技(深圳)有限公司赵连启腾讯科技(深圳)有限公司李祖喜腾讯科技(深圳)有限公司刘大闯深圳市中电电力技术股份有限公司许可欣中国信息通信研究院 前言 大型数据中心单模组超过十万个测点,在运营期间对这些数据的治理维护费用已经超过采购建设成本。例如最常见的直流霍尔传感和温湿度传感器存在随着使用周期采集精度非线性漂移的问题,电池监控仪的内阻检测由于接触原因导致采集异常等,不准确的数据可能导致PUE统计失真、热点告警阈值裕量过大和设备健康度突变等。传统弱电集成主要关注传感器设计精度和采购成本,但是忽略了数据中心超过10年运营周期,传感器并不能保持一致的数据质量,为此加大了人工巡检和数据治理的工作量。 可信数据是数据中心自动化运营和智能化运营的基础数字底座,面对中大型数据中心或大规模数据中心集群的海量数据治理挑战,只有建立完整数据标准体系,并从数据采集、传输、存储到消费的全数据链路实现数据质量保证和控制,特别需要从数据源头即智能传感器开始设计才是根本解决之道。智能传感网络开放体系推动开放协议和标准连接实现即插即用,并内置自校准算法实现免维护,通过自诊断算法主动上报故障告警实现主动运维,最终实现可信数据分级定义,确保在设计、安装、运营和维保全周期保持一致的数据质量,为数据中心告警、变更、巡检和维保自动化、成本分析和AI调优等服务提供可信数据基础能力。 本白皮书定义智能传感网络开放体系,包括五个核心模块,分别阐述开放通信协议、自动校准算法、标准连接定义、主动运维体系和可信数据分级。 本白皮书可作为数据中心运营经理、弱电工程师、设备厂商、开发人员、高校研究和相关数据中心从业者的技术参考。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 目录 V版权声明............................................................I编写组.............................................................II前言............................................................III一、术语定义.....................................................1二、项目背景.....................................................2三、智能传感体系.................................................4四、开放通信协议.................................................6(一)设备标识.................................................7(二)数据质量.................................................7(三)交互协议................................................11(四)总线协议................................................19五、自动校准算法................................................21(一)多数据源................................................21(二)开放算法原理............................................23(三)自诊断和自校准算法......................................26六、标准连接定义................................................29(一)串口连接................................................29(二)自动定位................................................30(三)IP连接..................................................31(四)无线接入................................................32(五)统一布线................................................32(六)防呆设计................................................33 (七)统一编号................................................33(八)线缆接口................................................34七、主动运维体系................................................35(一)诊断告警................................................37(二)自动派单................................................37(三)备品备件................................................37(四)硬件更换................................................38(五)数据恢复................................................38(六)数据治理................................................38八、可信数据分级................................................40(一)数据质量................................................40(二)数据存储................................................41(三)数据安全................................................42(四)数据审计................................................42(五)数据等级................................................43 数据中心智能传感网络开放体系白皮书 一、术语定义 二、项目背景 目前数据中心部署海量传感器采集温度、湿度、电压、电流、气压等环境和设备状态,在设计阶段存在异构制式安装和调测复杂,在运营阶段存在精度漂移和采集异常无法及时发现,最终导致数据全生命周期成本较高且质量不统一。 可信数据是数据中心自动化和智能化运营的基础,要求准确的配置和符合质量定义的数据,其中数据质量包括数据精度、传输时延、采集稳定性、测点完整性、异常描述和预估补偿等方面。然而要实现完全的可信数据,目前主要在运营过程中进行针对性数据治理,但面对海量数据,治理占用大量资源、发现问题慢、治理效率低和效果巩固差。特别是面对直流霍尔或温湿度这样大量使用的传感器但是存在随时间发生的非线性精度漂移,依赖定期巡检或人工校准的方法覆盖率、准确率和及时性都面临挑战,错误的电流和温 湿度数据,将直接导致错误的PUE计算和热点告警,进一步影响成本分析、AI节能和机房升温等PUE综合优化措施的推广。 三、智能传感体系 本白皮书提出从数据源头实现可信数据,即从传感器层的设计、开发、部署、运营和维护全周期进行管理,改变传统数据中心建设和监控标准仅从功能规格、成本控制、质量等级和服务水平进行约束。从第一性原理出发,智能传感网络开放体系强调在数据中心全生命周期内保证一致的传感精度和数据质量,通过自校准和自诊断算法实现全自动免维护,并开放协议标准实现即插即用和主动运维,建立可信数据的统一标准规范。 智能传感器核心设计支持自动诊断和自动校准,即通过多传感探头和多源校准算法实现上报数据总是满足精度要求;支持主动发现和变化上报的通信协议,统一通信和供电物理接口,实现传感器的即插即用;并增加带内/带外的传感状态主动上报,打通主动运维流程,实现1小时的SLA服务水平等级。最终实现在建设阶段工程 化思维演化为产品化思维,运营阶段实现免维护的全周期可信数据,维保阶段实现主动故障发现和更换,从而确保海量传感数据的质量和成本可控。 四、开放通信协议 每个智能传感器具备统一编码规则生成的唯一设备标识,与上位机(数据采集器、智能网关或边端服务器)进行连接和握手后,通过北向接口在应用协议层发送设备标识实现即插即用,并在设备认证成功后支持带质量标签的变化数据主动上报,同时支持带外接口主动发送设备状态至主动运维服务,在硬件故障或精度漂移超限后能故障定位和发起变更流程进行更换。 (一)设备标识 为实现设备自动发现和即插即用,采用统一编码规则实现每个设备唯一标识。设备标识包括ID规则、设备类型、厂商、产品型号、生产日期、设计寿命、固件版本、协议版本等。 用一组设备信息自定义寄存器对每个设备进行标识,以Modbus协议为例,设备信息自定义寄存器编码规则如下: (二)数据质量 数据质量指测点和数据集符合监控规范和SLA定义包括准确性、完整性、有效性、一致性、唯一性、及时性和应用性等标准的程度。数据质量标签(QoS)由智能传感采集程序根据通信状态、采样精度和校准算法等确定,包括正常、采集异常、超有效值域、初始值、空值、超量程、自动校准(标识数据被算法处理过)、精度漂移 (算法已经无法校准)、校时失败、存储异常、通信中断和一致性错误等,质量标签可由多个数据处理节点例如采集器、监控系统和大数据服务根据数据治理规则进行标定。 1、数据质量标签 (1)标签定义 数据质量标签:所有采集数据和业务数据都需要带数据质量标签。 数据标签继承:映射到该业务数据的所有采集数据测点的数据质量标签中,取优先级最高的数据质量标签映射到业务数据的数据。 (2)采集数据标签规则 1)如果采集直接上传了异常的数据质量标签,则直接取该数据质量标签; 2)没有获取到采集直接上报的数据质量标签或者采集上报的数据质量标签为正常的情况下,根据数值或传输的定义,平台系统给对应数据打质量标签(见“是否由平台判断打标签”列信息); (3)业务数据标签规则 1)如果有数据,根据业务数据配置的本身的合法范围判定是否越限; 2)如果越限则打上越限的标签“OverRange"(-406); 3)其他情况,直接继承该业务数据对应的采集数据的数