NIC Safe Mode
背景
在许多成本优化的服务器中,连接方式仅限于电源和网络线缆,要求服务器始终具备远程可访问性和可管理性。然而,标准平台不针对设备特定定制,且在 OCP 成本优化服务器中,NIC 作为单点故障,若出现故障需自愈方法。
问题提出
当 NIC 配置错误导致服务器无法启动时,可选方案有限:
- 通过 BMC 修改错误配置(并非所有系统设置可从 BMC 修改)。
- 物理更换 NIC(大型数据中心最后手段)。
Mellanox NIC Safe Mode
核心功能
- 自动恢复:当设备配置错误导致系统无法启动时,Safe Mode 允许设备在不移除的情况下恢复。
- 自动进入:在预配置的多次错误重启后,ConnectX 设备自动进入 Safe Mode。
- 配置灵活:可通过非易失性配置、HII、NC-SI 和 Mellanox 工具启用/禁用/监控 Safe Mode。
操作流程
- 资源占用:Safe Mode 仅需最小系统资源,允许系统启动。
- 配置修改:用户可查看并修改错误设置。
- 状态可见:通过 HII、控制台和 Mellanox 工具查看设备状态。
- 重启恢复:重新配置后,系统下次重启将应用新设置。
配置选项
- 四种模式:
- Safe Mode 禁用。
- 默认模式:连续 Num-Bad-Reboots 次后启用(默认为 3 次)。
- 单次重启激活。
- 强制始终启用。
- 参数设置:
- 默认模式可设置为禁用/启用。
- Num-Bad-Reboots 参数范围:1-255 次错误重启。
行动建议
- 新增 NC-SI 命令:要求强制 NIC 重置为“工厂默认”模式。
- 默认行为:在工厂默认模式下,设备必须允许重新配置。
结论
Mellanox NIC Safe Mode 通过自动检测和恢复机制,解决了 NIC 配置错误导致的系统启动问题,提高了服务器的可靠性和可管理性,尤其适用于成本优化服务器场景。