硬件故障管理子项目
项目背景与目标
硬件故障管理子项目由英特尔、微软、Facebook、HPE、谷歌、戴尔等公司参与,旨在解决大规模管理硬件故障的痛点。项目与OCP及行业利益相关者合作,通过开发通用故障分类和可扩展的共享知识库方法,利用Redfish、ACPI和OpenBMC等现有行业标准,改善硬件故障管理。
项目参与方与会议安排
项目参与者包括系统硬件与软件供应商、系统集成商、传统企业、云服务提供商以及超大规模数据中心舰队运营商。项目团队每周五下午2点举行会议,讨论硬件故障管理相关议题。
项目宪章与方法论
- 宪章:解决大规模管理硬件故障的痛点。
- 方法论:与OCP/行业利益相关者合作,开发通用故障分类和可扩展的共享知识库方法。
项目回顾
- OCP 2020 技术周:更新记录 链接。
- OCP 虚拟峰会 2020:记录概述 链接。
项目概述
- 硬件故障管理痛点:定义广泛的硬件故障分类、通用的错误报告格式、通用的故障处理接口、提升现有行业标准。
- 目标:确定硬件故障的要求,捕获、分类和优先考虑可操作的硬件故障管理。
- 活动:标准化硬件错误报告格式、创建硬件错误分类、监控接口、大规模HW基础设施错误故障管理基础设施提案、提供参考和指导系统硬件故障管理HW故障管理处理最佳实践简编以及案例研究。
项目状态与可交付成果
- 硬件错误报告格式标准化:状态为版本0.5,可访问位置链接。
- 硬件错误分类:现状为正在审查中,可访问位置链接。
- 大规模的HW基础设施错误故障管理基础设施提案:现状为正在审查中,可访问位置链接。
- 系统硬件故障管理HW故障管理处理最佳实践简编:状态为版本0.1,可访问位置链接。
呼吁采取行动
- 会议安排:3:10pm - 3:35pm | 大规模内存更正错误分析(通过Linux EDAC驱动程序);3:35 pm - 3:50 pm | 云规模和边缘基础设施的硬件错误报告标准化。
- 子项目Wiki:链接。
- 邮件列表:链接。
- 讨论主题:ramab @ microsoft.com; zhengyuyang @ fb.com; Yogesh.Varma @ intel.com。
- 社区参与:工作刚刚开始,社区参与至关重要。加入对话:子项目在PST每个星期五下午2点举行会议;分享你的想法:脱机审查文档和提案;呆在周围对于以下硬件故障管理会话。