AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:孙玉勤京东科技工作组长:何泽坤腾讯科技(深圳)有限公司贡献专家:李力京东科技梁振方京东科技刘松林京东科技李华毅燧原科技周永财燧原科技殷吉志华勤技术陈慈沼锐捷网络余曦快手赵勇云合智网王少鹏中国信息通信研究院孙聪中国信息通信研究院邱奔中国信息通信研究院 前言 ETH-X以太超节点系统由大规模异构硬件(涵盖GPU、交换机、电源、液冷单元等)构成,其复杂的配置和依赖关系远超传统服务器运维。为了满足超节点集群稳定运行,充分发挥高效算力,需要针对性制定超节点运维规范,为相对复杂的运维工作提供指引。 ETH-X以太超节点系统运维规范构建覆盖硬件资产全生命周期的标准化运维框架,通过配置管理数据库统一纳管硬件/软件配置项,并清晰定义其关联关系,包含以下部分:资产全生命周期管理;分层实时监控;智能告警与故障处理;自动化巡检与可视化。 本规范只涉及超节点内部相关运维环节,不覆盖计算集群整体运维。 目录 一、概述..........................................................1(一)运维架构.................................................1(二)运维范围与场景...........................................1二、资产管理......................................................2(一)记录信息.................................................3(二)信息管理.................................................8三、监控系统......................................................8(一)采集方式.................................................8(二)监控指标................................................11四、日志系统.....................................................31(一)日志内容................................................31(二)日志管理................................................35五、告警系统.....................................................35(一)告警类型................................................35(二)告警规则................................................37(三)告警处理................................................40六、故障处理.....................................................41(一)故障确认................................................41(二)业务迁移................................................42(三)硬件运维................................................43(四)软件运维................................................44七、可视化系统...................................................45(一)网页展示................................................45(二)超节点液晶屏............................................45八、巡检系统.....................................................46(一)人工巡检................................................46(二)自动巡检................................................47(三)巡检报告管理............................................47 图目录 图1超节点运维架构...............................................1图2超节点运维范围...............................................2 表目录 表1计算节点指标.................................................3表2 GPU指标....................................................5表3交换节点指标.................................................6表4机柜控制单元指标.............................................7表5节点运行状态指标............................................11表6节点异常状态指标............................................12表7 GPU基础信息指标...........................................13表8 GPU运行状态指标...........................................14表9 GPU异常状态指标...........................................15表10光模块信息及异常指标.......................................17表11网卡侧光模块指标...........................................20表12 XCCL指标.................................................20表13 XCCL数据与异常指标.......................................21表14交换节点指标...............................................23表15超节点内指标与健康阈值.....................................28表16电源单元指标...............................................28表17液冷单元指标...............................................29表18超节点描述性指标...........................................30表19故障类指标.................................................30表20计算节点告警...............................................35表21交换节点告警...............................................36表22机柜控制单元告警...........................................37表23告警级别...................................................37表24告警状态...................................................38表25告警规则...................................................39表26告警处理核心功能...........................................40表27告警处理核心机制...........................................41表28交换节点故障类型...........................................42 表29机柜控制单元故障类型.......................................44表30超节点液晶屏信息类指标.....................................45表31超节点液晶屏故障类指标.....................................46表32人工巡检报告样表...........................................47表33自动巡检报告样表...........................................47 一、概述 (一)运维架构 随着人工智能大模型时代的来临,算力的需求呈现显著的增长。传统的中数据中心架构难以满足大规模AI训练和推理的需求,由ODCC提出来的ETH-X超级点技术成为提升算力密度和互联效率的关键方案,如何确保其在运维过程中发挥最大的效能,无论计算节点/网络节点/机柜控制单元需要在运维规范统一,内容涵盖了EHT-X超节点的资产管理体系、分层监控系统、告警和故障管理以及可视化、自动化等相关内容,旨在为相关的技术人员提供技术参考和指导。 (二)运维范围与场景 运维范围:超节点域范围(含scale-out网卡) 管理网络:带外管理+带内管理 管理接口:SSH/Web/syslog/gRPC/agent/Telemetry/SNMP 二、资产管理 由于以太超节点中包含的硬件设备较多,需要有资产管理系统针对其中各个硬件设备基本信息进行管理,CMDB即配置管理数据库(ConfigurationManagementDatabase),是支撑高效运维和资源调度的核心组件,主要用于统一硬件设备(如服务器、交换机)、软件系统、网络设备、虚拟机等等配置信息。 通过CMDB可以清晰了解以太超节点环境中各组件之间的关联 和依赖关系,有助于进行故障排查、资源规划、变更管理等运维活动。例如,当某个业务系统出现故障时,可借助CMDB快速定位与之相关的硬件、软件等配置项,从而更高效地解决问题。同时,在进行系统升级、扩容等变更操作时,CMDB能帮助评估变更可能带来的影响。 (一)记录信息 1.计算节点 2.GPU基础信息 表2GPU指标 3.交换节点 4.机柜控制单元 (二)信息管理 1.信息录入 在准备部署以太网超节点软件系统之前,将其中主要硬件设备的基本信息录入CMDB。 2.信息检查 信息录入CM