AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队项目经理:王茜中国移动通信集团有限公司工作组长:郭亮中国信息通信研究院贡献专家:郭亮中国信息通信研究院唐华斌中国移动通信集团有限公司马奇凤中国移动通信集团有限公司王茜中国移动通信集团有限公司谢丽娜中国信息通信研究院李佳媛中国信息通信研究院包振忠华为技术有限公司王东伟华为技术有限公司李响中兴通讯股份有限公司杨朋霖海光信息技术股份有限公司戴权烽火通信科技股份有限公司方兴烽火通信科技股份有限公司丁张成新华三技术有限公司陈昊新华三技术有限公司王勇浪潮计算机科技有限公司王玉宝浪潮计算机科技有限公司王森浪潮计算机科技有限公司樊永顺曙光信息产业股份有限公司胥颖北京神州数码云科信息技术有限公司 前言 算力基础设施作为数字时代新质生产力的代表,近年来呈现爆发式增长态势。国家相关部门相继颁布了《算力基础设施高质量发展行动计划》等政策措施,为我国算力基础设施的高质量发展指明了清晰的方向。与此同时,在实际算力基础设施建设,特别是万卡、超万卡等超大规模算力集群的建设过程中,无论是满足人工智能应用的超高要求,还是快速完成算力交付的工程实施,都面临着巨大的质量挑战。其中,作为算力基础的硬件层,大量服务器和交换机可能带来的硬件、驱动程序、参数配置等设备自身错误,以及数据中心供电、制冷等环境问题,都会在很大程度上影响着算力的运行性能和稳定性。如何保障和促进算力基础设施的高质量发展,成为算力服务提供者和使用者共同关注的焦点问题。 基于此,本项目提出面向算力基础设施建设和运行的质量评估,通过建立科学的评估模型,为算力基础设施的提供者、使用者和管理者提供评价算力质量的统一标准。同时,通过提出对评估工具的要求,推动形成以评促建的实施应用,持续帮助发现问题、改进质量、提升技术,促进国家算力基础设施的高质量发展。 目录 一、适用范围......................................................1二、规范性引用文件................................................2三、术语、定义和缩略语............................................3四、算力基础设施质量评估模型......................................4(一)评估原则和内容............................................41.评估原则.................................................42.评估内容.................................................4(二)评估指标计算方法..........................................41.可访问性.................................................42.可管理性.................................................53.健康度...................................................54.一致性...................................................75.环境稳定性...............................................8(三)评估结果和定级............................................81.结果评分.................................................82.结果定级.................................................9五、评估方案说明.................................................10(一)评估方法.................................................10(二)评估周期................................................10(三)受限因素及处理...........................................10附录..............................................................11 一、适用范围 本文提出的算力基础设施质量评估模型,面向算力基础设施中硬件层的质量评估,主要包括评估内容、指标维度、评估方法,以及对评估工具的要求。 本文提出的算力基础设施质量评估模型及方法,面向算力基础设施达到可交付、可运行的需求,适用于不同建设规模、新建或已运行阶段的通算、智算中心等多种场景下的算力质量评估。 二、规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 三、术语、定义和缩略语 四、算力基础设施质量评估模型 (一)评估原则和内容 1.评估原则 科学合理:涵盖基础设施(供电、制冷)及核心IT设备(服务器、交换机),覆盖多维度的指标。 客观全面:指标数据均来源于被评估环境及设备的实际数值,作为定量指标,客观可追溯。数据采集应来自于全部被评估设备,采取全量采集而非抽样的方式。 易于实施:指标数值的获取方式应对业务无侵入、对执行环境依赖程度低,宜通过硬件管理网络获取数据,评估流程易实施、可落地。 2.评估内容 算力基础设施质量评估包括可访问性、可管理性、健康度、一致性、环境稳定性五大维度的评估,涵盖算力基础设施中核心IT设备的各项配置、组件信息、环境信息等多方面检测内容。 (二)评估指标计算方法 1.可访问性 可访问性指算力基础设施中的硬件层设备可以通过网络正常访问和登录的比例,是进行评估的基本前提。 计算公式如下: 式中, A:可访问性得分 x:设备分为x类,如通算服务器、智算服务器、交换机 Nk:第k类设备的数量(台) Sk,i:第k类设备中的第i台设备可以成功访问 2.可管理性 可管理性指设备可以通过标准接口获取相关信息的能力。各类设备对应的参数指标详见附录。 计算公式如下: M=M满分×x11N1,,)M(NkkkxkiMjjikkkS式中, M:可管理性得分 M满分:M在最终评估结果中所占分值 x:设备分为x类,如通算服务器、智算服务器、交换机 Nk:第k类设备的数量(台),注:可成功访问的设备 Mk:第k类设备应可获取的指标数(个),注:详见附录 Sk,i,j:第k类设备中的第i台设备的第j个指标可以成功获取到有效值。有效值指可获取到值,且值不为null、空白等异常值。 3.健康度 健康度指设备可以通过标准接口获取到的设备及其各组件的健康状态及告警状态。各类设备对应的参数指标详见附录。 计算公式如下: H=H满分×x11N1,,)M(NkkkxkiMjjikkkS式中, H:健康度得分 H满分:H在最终评估结果中所占分值 x:设备分为x类,如通算服务器、智算服务器、交换机 Nk:第k类设备的数量(台),注:可成功访问的设备 Mk:第k类设备健康类指标数(个),注:详见附录 Sk,i,j:第k类设备中的第i台设备的第j个指标健康类指标值属于正 常 值 。 正 常 值 一 般 为OK/Normal等 , 异 常 值 一 般为Warning/Fatal/Error/Critical/Offline等。 服务器健康状态常见内容如下: "Status":{"Health":"OK","State":"(ENABLE)"} "Status":{"Health":"Warning","State":"(ENABLE)"} 交换机光模块健康状态常见内容如下:Transceivercurrentalarminformation: None Ten-GigabitEthernet1/0/49transceivercurrentalarminformation: RXpowerlow RXsignalloss 4.一致性 一致性指在同一个被评估的算力基础设施内,同模型设备应具备完全一致的组件、配置信息、固件版本等。其中,同模型设备,具体指在符合采购、应用需求下,在规格配置、供货来源、参数配置方面应具有同质化特点的一批设备。 设备模型的划分粒度:明确采用多供应商的设备视为不同的模型。 各类设备对应的一致性参数指标详见附录。 计算公式如下: C=C满分×x111G1,,)M(NkkkxkMjmmjkkkS式中,C:一致性得分C满分:C在最终评估结果中所占分值 x:设备分为x类,如通算服务器、智算服务器、交换机Nk:第k类设备的数量(台),注:可成功访问的设备Mk:第k类设备应符合一致性的指标数(个),注:详见附录Gk:第k类设备划分为具有同质化特点的设备模型分组Sk,j,m:第k类设备中的第m组设备内第j个指标值一致的设备数 量。 5.环境稳定性 环境稳定性指通过算力基础设施中的硬件层设备所反映出的环境稳定性情况,包括电源电压和环境温度。 计算公式如下: E=E满分×x11N1,,)M(NkkkxkiMjjikkkS 式中, E:环境稳定性得分 E满分:E在最终评估结果中所占分值 x:设备分为x类,如通算服务器、智算服务器、交换机 Nk:第k类设备的数量(台),注:可成功访问的设备 Mk:第k类设备环境稳定类指标数(个),注:详见附录 Sk,i,j:第k类设备中的第i台设备的第j个指标环境稳定类指标值属于正常 (三)评估结果和定级 1.结果评分 算力基础设施质量评估整体结果根据定量指标及各项维度的权重计算分数,公式如下: CQ=A×(M+H+C+E)式中, CQ:算力质量评估总分,满分100分 A:可访问性得分,满分100%M:可管理性得分,M满分=30分H:健康度得分,H满分=30分C:一致性得分,C满分=30分E:环境稳定性得分,E满分=10分 2.结果定级 根据算力基础设施质量评估分值,参照下表进行对应等级划分: 五、评估方案说明 (一)评估方法 本文中的评估应采用自动化的评估方式,降低人工参与和手动操作的程度,采取一致的、自动化的执行方法完成评估所需的数据采集、数据分析、分值计算等步骤,保证评估的客观性和可信度。 (二)评估周期 评估应在约定的评估周期内完成,评估为单次执行,每次执行得到评估分值。 在评估周期内,可执行多次,取其中评估分值最高者作为评估结果。 (三)受限因素及处理 当可管理性维度的得分低于80%时,即较多客观指标无法获取,视为不具备完整的评估条件,应通过补充及完善评估手段提高适配程度后重新执行。 在评估启动前,可经过预评估阶段确认适配需求,核实具备评估条件,以确保评估结果的有效性。 附录