核心观点与内容
带外管理 (OOB) 概述
- 定义:一种不依赖服务器 CPU、BIOS 和操作系统的系统硬件监控和管理子系统。
- 功能:监控设备状态(电源状态、链路状态)、故障预测数据(寿命、CECC、UECC)、调试数据(UECC、PCI CRC 错误)以及传感器数据(温度、电压)。
- 应用场景:当设备故障或系统错误导致带内管理失效时,OOB 管理提供关键支持。
当前存储设备管理限制
- 问题:存储设备主要依赖带内遥测数据,但带内管理在系统故障时失效。
- 解决方案:提出 DMC(设备管理控制)架构以增强带外管理能力。
DMC 架构提案
- 架构:管理控制单元 (MCU) 直接连接至 BMC (基础板管理控制器),通过 DMC 协议与 BMC 通信。
- 优势:
- MCU 可存储和交付设备日志数据。
- 即使设备异常,BMC 仍能监控设备状态。
- 支持通过 OOB 和设备控制器重置进行固件更新。
- 硬件要求:
- 设备需具备系统错误保护能力(如 FAN 和 PSU 错误)。
- 需收集传感器数据(温度、功率)、设备状态(PCIe 链路、电源状态)和健康数据(生命周期、CECC/UECC 计数、PCIe CRC 错误)。
DMC 协议与标准化
- 协议栈:基于 PMCI(平台管理通信基础设施),包括 OpenBMC、MCTP、SMBus/I2C 等。
- 实现案例:
- Poseidon 系统中的 OpenBMC DMC 实现。
- SSD 中的 DMC 实现(基于 MCTP 和 SMBus)。
- 标准化需求:
- 定义数据集和功能。
- 标准化协议(包括命令格式)。
- 合作方:OCP H/W 管理项目、OpenBMC、DMTF。
PoC 合作与行动呼吁
- 合作项目:与浪潮合作,基于波塞冬 V2 E3.X 参考系统进行 DMC PoC 测试。
- 行动呼吁:
- 与 OCP H/W 管理项目、OpenBMC 和 DMTF 合作。
- 定义 DMC 数据集和功能。
- 标准化协议(包括命令格式)。
展示与后续计划
- OCP 全球峰会演示:三星展台(#B14)进行 DMC 演示。
- 后续合作:期望与 OCP H/W 管理项目和 DMTF 深度合作,推动 DMC 标准化。