AI智能总结
--健康度指标行业标准草案 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队项目经理:胡泽志美团工作组长:郭亮中国信息通信研究院贡献专家:郭亮中国信息通信研究院胡泽志美团范振国美团赵继壮中国信息通信研究院谢丽娜中国信息通信研究院李佳媛中国信息通信研究院靳方春北京忆恒创源科技股份有限公司朱磊北京忆恒创源科技股份有限公司袁戎北京忆恒创源科技股份有限公司高建国北京忆恒创源科技股份有限公司孙英达北京忆恒创源科技股份有限公司段小锋北京忆恒创源科技股份有限公司李朝兰北京忆恒创源科技股份有限公司张磊深圳忆联信息系统有限公司黄岩深圳忆联信息系统有限公司华云山深圳忆联信息系统有限公司王晋强深圳大普微电子 韩港霄深圳大普微电子崔志勇深圳大普微电子伍波华为技术有限公司肖健华为技术有限公司张箭华为技术有限公司刘怡华为技术有限公司李军深圳佰维存储科技股份有限公司卓建江深圳佰维存储科技股份有限公司郝健深圳佰维存储科技股份有限公司刘金旻深圳佰维存储科技股份有限公司曹美燕深圳佰维存储科技股份有限公司吕志勇深圳佰维存储科技股份有限公司魏靖深圳佰维存储科技股份有限公司秦月深圳市江波龙电子股份有限公司胥文龙深圳市江波龙电子股份有限公司黄福帅联想(北京)有限公司吴福磊联想(北京)有限公司徐子怡联想(北京)有限公司孙志超曙光信息产业股份有限公司陈磊静行吟信息科技(上海)有限公司 前言 随着数据中心规模的快速扩张和业务对存储可靠性要求的不断提升,NVMeSSD作为关键存储组件,其健康状态监控和故障预测已成为保障数据安全和系统稳定运行的重要环节。传统的存储设备监控往往局限于单一硬件层面的指标,缺乏对整个NVMe子系统的综合评估能力。为了填补这一空白,本标准草案由美团发起,联合ODCC、小红书等业界领先企业,以及忆恒、大普、忆联、华为、佰维等主流SSD厂商,共同制定了一套全面的NVMe子系统健康度评估体系。 本标准的核心创新在于将评估范围从单纯的NVMeSSD扩展到整个子系统,涵盖了NVMeSSD、硬盘背板、线缆、主板、CPU、BMC、BIOS等所有相关软硬件组件。通过整合标准SMART属性、遥测日志、持久事件日志等多维度数据源,建立了1-5分的量化健康度评分机制,并创新性地引入了IO延时分布和数据块大小分布的24小时窗口监控。该标准不仅为数据中心运维人员提供了统一的故障预测工具,更为SSD厂商和系统集成商提供了标准化的健康度指标实施框架,推动整个行业向更加智能化、预防性的运维模式转变。 目录 一、适用范围......................................................1二、规范性引用文件................................................2三、术语、定义和缩略语............................................3四、健康度指标定义................................................9五、健康度指标计算...............................................241.理论公式.....................................................242.详细指标......................................................1六、实施与应用建议................................................1七、IO延时分布和数据块大小分布(24h窗口)........................2八、未来展望......................................................7 随着数据中心规模快速扩张,NVMeSSD作为关键存储组件,其健康状态监控和故障预测已成为保障数据安全的重要环节。本标准草案建立了涵盖NVMe子系统的1-5分量化健康度评估体系,推动行业向智能化预防性运维转变。 一、适用范围 本草案规定了NVMe子系统健康度指标的定义、评分标准、指标值以及相关日志的存储位置和判定依据。其目的在于通过NVMeSSD作为媒介,对NVMe子系统所处环境的健康状态进行预测和指示,为行业提供参考标准。最终目标是实现对NVMe子系统(包括NVMeSSD)的全面健康度评估与潜在故障预测,从而提升数据中心系统的数据安全性,并增强其可靠性和可维护性。本标准适用于配备NVMeSSD的各类数据中心服务器。 总体目 标:基于行业通用标 准,如OCP的TelemetryLog、Smart-log、Smart-log-add及其他相关日志,提取与NVMe子系统健康度密切相关的指标,进行分类与评估,最终定义1-5分的健康度等级。健康度值存放于NVMeSSD日志页(logpage)的一个字节中;同时,TelemetryLog的用户自定义区域保存IO延时分布统计和IO数据块分布统计,并要求以明文输出,以便进行业务层面的整体IO特性分析。无论通过带内还是带外接口,均可获取该健康度指标,方便运维和故障判定。 二、规范性引用文件 本标准参考并引用了以下行业标准及相关技术文档,用于定义NVMe子系统健康度指标、日志结构和评分模型: 1.NVMExpress官方标准(NVMExpressSpecifications1.4/2.0)oSMART/HealthInformationLogPage(LogIdentifier02h和VendorUniqueE4h):用于存储标准健康信息及扩展健康度指标。oTelemetryLogPages(LID07h/08h):包括主机发起和控制器发起的遥测日志页,用于记录SSD的运行状态、错误和健康信息。oPersistentEventLogPage:记录SSD的错误、警告及信息事件,保证断电后仍能追踪故障历史。oCriticalWarningFields:参考NVMe控制器状态寄存器中的关键告警位定义,用于快速识别严重健康问题。oFeatureSpecificLogs:引用特性日志页的结构和功能,例如固件槽位信息、命令支持与执行效果等。 2.OCPNVMeSSD规范(OCPNVMeSSDSpecification) oSMART扩展日志(SMARTExtendedLogs,LogPageIdentifierC0h):引用OCP扩展字段,用于PCIe错误计数、链路重训练次数及相关链路健康度分析。 oTelemetryLog扩展机制:借鉴OCPTelemetry规范,扩展NVMeTelemetryLog的字段定义,用于实现IO延时分布及IO数据块分布的可视化与诊断。 3.SMART技术标准(Self-Monitoring,Analysis,andReportingTechnology) o引用了标准SMART属性,如AvailableSpare、PercentageUsed、Temperature、ControllerBusyTime、UnsafeShutdowns等关键健康指标,作为健康度打分的基础参数。 4.供应商特定日志(Vendor-SpecificLogs) o使用NVMe规范预留的厂商自定义日志区间(LogIdentifierECh、EDh等)存放IO延时分布统计和IO数据块分布统计,为业务特性分析和性能优化提供数据支持。 5.Memblaze和忆联厂商技术文档 o参考了Memblaze与忆联(Memblaze&UnionMemory)关于IO延时分布统计和IO数据块分布统计的设计方案,结合其最佳实践,完善了健康度指标中关于IO特性记录和分析的设计思路。 三、术语、定义和缩略语 重点术语和定义: 健康度:用于衡量NVMe子系统健康状态的指标,以1-5的分值表示,分值越高表示健康状态越好。 遥测日志(TelemetryLog):NVMe规范定义的结构化日志机制,用于提供NVMeSSD运行状态、性能、健康状况和错误事件的详细信息,是本标准进行健康度评估和故障预测的重要数据来源。 IO延时分布日志:TelemetryLog的一种扩展类型,用于记录SSD在一段时间内处理IO请求的延时分布情况,以帮助分析业务IO特性和潜在性能问题,不一定作为打分依据。 IO数据块大小分布日志:TelemetryLog的一种扩展类型,用于记录SSD在一段时间内处理IO请求的数据块大小分布情况,以帮助分析业务IO特性和资源利用率,不一定作为打分依据。 注:短—0.3s长—0.9s 健康度指示: 5分表示NVMe子系统处于健康状态,没有任何异常。4分表示亚健康,表示NVMe子系统有些指标轻微异常,暂时可以不用处理;3分表示小疾,表示NVMe子系统的健康度可能存在一些问题,需要关注;2分表示大疾,表示NVMe子系统的健康度问题严重,需要人工干预,进行替换或维修操作;1分表示病入膏肓,表示NVMe子系统出现故障,达到不可用状态。注:指示灯可以是U.2对应的背板故障指示灯,也可以是EDSFF盘 体上的故障指示灯。 四、健康度指标定义 健康度评分的存放位置:健康度指标使用SMART/HealthInformationLogPage(LogIdentifierE4h)中的首字节Byte0(offset0)来存放,E4h后面的字节存放各指标的具体值; 工具要求:标准的nvmecli工具,例如版本要求1.16版或以上; 命令要求: 带内:nvmeODCCget-log/dev/nvme0n10xe40xffffffff-oextended_smart.log 带外:ipmitoolraw0x300x880x010x000x000x000xe40x000x000x00 格式要求: 健康度指标:十六进制显示 IO延时分布和块大小分布:要求明文输出,具体定义见第七章。 健康度评估将综合考虑以下多种数据来源的指标: 1.标准SMART属性(StandardSMARTAttributes):指NVMe规范定义的标准SMART(Self-Monitoring,AnalysisandReporting Technology)属性。这些属性提供了关于SSD运行状态和寿命的关键信息,例如: o可用备用空间(AvailableSpare):指示剩余可用于替换坏块的备用容量百分比。o已用寿命百分比(PercentageUsedEndurance):估计的已用寿命百分比,基于磨损模型计算。o温度(Temperature):SSD控制器或NAND闪存的当前温度。o主机读取/写入量(HostRead/WriteSectors):主机读取和写入的数据扇区总数。o控制器繁忙时间(ControllerBusyTime):控制器处于繁忙状态的总时间。o电源周期计数(PowerCycleCount):SSD上电和断电的次数。o不安全关机计数(UnsafeShutdowns):不正常关机的次数。o[其他标准SMART属性]这些标准SMART属性是健康度评估的基础指标,用于快速了解SSD的基本健康状况和寿命信息。 2.SMART扩展日志(SMARTExtendedLogs):(LogPageIdentifierC0h)指在NVMe规范的厂商特定日志范围(C0h-FFh)内,由OCPNVMeSSDSpecification定义的SMART扩展日志页(LogP