DPU 管理概述
NVIDIA DPU 概述
NVIDIA BlueField DPU 是一种 SoC 数据中心基础设施芯片,专为传统企业的现代云工作负载和高性能计算需求而设计。它结合了 NVIDIA ConnectX® 网络适配器和一系列 Arm® 内核,以及特定于基础设施的功能卸载。
DPU 管理接口
DPU 管理涉及多个接口:
- 基于标准的 NIC 管理边带接口
- Arm® 核心管理接口
- USB - 供应商定义的接口,用于管理 Arm® 内核
- UART - 到嵌入式操作系统的控制台接口
所有这些接口都是 OCP NIC 3.0 规范的一部分。PCIe 上的 MCTP 是可选要求,可以通过 SMBus 或 PCIe VDM 实现。
DPU 管理方法
DPU 管理方法包括:
- NIC 管理
- Arm® 内核管理接口
- USB - 用于管理 Arm® 内核的供应商定义接口
- UART - 到嵌入式操作系统的控制台接口
- 红鱼主机接口
- NC-SI
- 用于 FW 更新的 PLDM
- PLDM 用于监测和控制
- 用于 FRU 的 PLDM
- RDE
- SoC 安全管理 - SPDM
Arm® 内核管理
OCP 3.0 NIC 使用引脚 A68 和 A69 提供 USB 2.0,SFF 卡需要 USB → UART 转换。
DPU 管理 - 平台级
嵌入式服务器操作系统启动时间总是比当前定义的 OCP NIC 3.0 定时规范长。提供裸金属平台需要在租户操作系统在主机服务器上启动之前,配置好 DPU 嵌入式 OS 的安全设置。不得从外部主机恢复 / 重新设置裸机服务器上的 DPU。使用 BMC 平台进行裸金属服务器的 DPU 配置时,要求在主机上的租户与平台之间实现额外的隔离。尽管平台 BMC 可能不被信任,但它仍然是平台热管理的所有者,这意味着它必须被允许监控 DPU 温度。
Arm® 内核管理
Arm® 核心群集实际上是 DPU 中的嵌入式服务器,管理嵌入式服务器任务包括:
- 操作系统配置 / 更新
- 完整操作系统恢复
- 操作系统参数配置
- 引导参数配置
- 安全参数配置
- 健康和运行状态监测
- 从受信任的 BMC 重置 / NMI 操作系统
- SOL 和 CLI
产品 / 设施信息
参考:https://docs.mellanox.com/m/view-rendered-page.action?abstractPageId=39257476
呼吁采取行动
虽然硬件接口已可用并定义,但尚未定义通过 USB 接口管理嵌入式服务器的标准协议。红鱼主机接口协议是在网络接口上定义的。有必要使用新的运输来补充这个定义通过 USB 的 MCTP。允许 OCP 服务器跟踪 DPU OS 状态需要一个新的待定义(TBD)标准方法,以便 BMC 能够通过现有的辅助接口查询该状态。
具有最新规格的 OCP NIC 3.0 WiKi:http://www.opencompute.org/wiki/Server/Mezz