您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:DPU硬件标准化的探索与实践 - 发现报告

DPU硬件标准化的探索与实践

DPU硬件标准化的探索与实践

中国移动研究院项目经理 目录 章节一:DPU技术现状及挑战章节二:DPU硬件标准化探索章节三:《裸金属服务器技术规范V2.0》解读章节四:中国移动DPU标准及生态建设 DPU技术现状及挑战 DPU技术现状及挑战 •DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器•DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现极低损耗、极强性能、极高灵活、极致安全,支撑中国移动算力网络多样化业务需求 极低损耗 极强性能 线速转发、极低时延无损网络 CPU“零”损耗算力资源极致利用 极高灵活 防火墙等安全功能加速虚拟化安全能力增强 裸金属弹性发放网络可编程 DPU技术现状及挑战 各自为营、定向适配的商业模式限制了DPU的产业发展亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展 技术体系 产业生态 云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键 DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地 Ø技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高Ø技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛Ø技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步 DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高 云平台 DPU 服务器 DPU硬件标准化探索 DPU硬件标准化探索 •DPU作为典型的软硬一体解决方案,亟需优先引导整机层及部件层标准化、通用化,为芯片与软件的深度整合及生态繁荣提供底层支撑 服务器整机面对的问题 DPU卡部件可看作在服务器内部的另一个小型服务器。DPU卡的引入对通用服务器设备在多个方面提出了定制化要求 DPU卡部件面对的问题 引入DPU后,服务器内多网卡替换为一张DPU卡。终端客户的组网方案、单节点网络带宽需求、带外纳管方案均存在较大差异,导致DPU卡关键硬件规格难以统一 DPU硬件标准化探索 •服务器硬件标准化建议分两个阶段进行推进。于阶段一优先解决与硬件设计强相关的结构、供电、散热等需求,于阶段二迈入服务器与DPU卡紧密耦合的“深水区”,进一步收敛两者的在带外纳管、上下电协同、底层固件的关系。通过生态标准进行前期引导,待生态成熟通过企标及采购进行落地•DPU卡硬件标准化建议通过生态标准优先对卡硬件架构、带外纳管等达成方案级别一致,再通过企标或限定场景 的行业标准进一步约束端口数量规格、功能性能等具体设计要求 DPU硬件标准化探索 •在DPU裸金属服务器技术领域,于ODCC立项《裸金属服务器技术规范》,通过两个阶段的讨论,提出四个统一,旨在实现DPU与服务器设备之间的硬件解耦,及早引导产业进行针对性设计,突破新技术规模应用瓶颈 统一服务器结构及供电最大能力 统一散热能力 •约束服务器支持未开机状态对卡进行散热及调速 •约束服务器可支持卡的最大结构规格及最大功耗门限•约束服务器可支持卡在服务器未开机状态启动 统一带外纳管方案 统一开关机方案 •建议卡内带外信息由DPU带外管理模块统一汇总、统一管理、统一传递•约束带外信息传递硬件通道 •建议由硬件管理平台对接Host-BMC及DPU带外管理模块,制定相关策略并完成统一控制,实现设备的优雅上下电 《裸金属服务器技术规范V2.0》解读 《裸金属服务器技术规范V2.0》解读 •2.0规范围绕服务器与DPU卡硬件带外纳管、上下电、底层固件的关系进行了深入探讨并给出技术建议,进一步收敛并完善硬件技术细节,实现设备边界清晰•感谢中国移动、中国电信、信通院、英特尔、中兴、华为、新华三、锐捷、NVIDIA、超聚变、烽火通信、联想、曙光、星云智联、凌华、忆联等十六家企业专家对本规范的大力支持 裸金属服务器 •DPU卡是否必须具备带外管理模块?•DPU卡的带外管理模块与Host-BMC的顶层关系?•带外管理模块应具备哪些必须功能? •DPU卡是在服务器内运行的“第二套小系统”,裸金属卡又作为PCIe Slave设备挂在Host-CPU下•引入DPU卡后,卡与整机的上下电需要如何设计才可保证系统稳定运行? •面向弹性裸金属应用,裸金属服务器的BIOS、BMC是否有特征需求可以进行归一化? 《裸金属服务器技术规范V2.0》解读 •DPU卡设备身份具备二重性,需要为新设备构建纳管新方案。项目组从带外管理需求、硬件方案、软件协议逐步达成技术共识 •进一步定义双带外管理模块交互协议,实现BMC软件解耦 《裸金属服务器技术规范V2.0》解读 •弹性裸金属应用场景对于服务器的Host-BIOS和Host-BMC存在多项特征需求,需要围绕安全性及资源分配进行约束,从底层硬件保证裸金属业务持续性服务能力 •筛选能够影响到服务器安全性的Host-BMC控制命令,并对此类命令的带内操作权限进行限制•Host-BIOS层面,建议针对Host-BIOS进行特殊 限 制 , 例 如 不 能 通 过H o t k e y进 入B I O SSetup界面,以防止客户随意修改Host-BIOS设置 •Virtio设备热插拔要求:DPU卡对应的PCIeRoot Port需要为后端switch与virtio设备分 配 足 够 的 资 源 , 并 为 每 个d o w n s t r e a mswitch的p-memory& np-memory分配足够空间,例如2M•设备数量要求:支持裸金属卡对应的PCIeRoot Port至少支持不小于32个后端Bus的扩展,以满足裸金属实例挂载需求,例如支持挂载16net+16blk; 虚拟接口资源设计建议 《裸金属服务器技术规范V2.0》解读 •充分利用DPU卡可独立供电特性,硬件管理平台通过带外管理网络对接Host-BMC及裸金属卡带外管理模块,实现控制逻辑和被控设备彼此独立,由第三方对卡及服务器进行统一控制,实现系统的优雅上下电 设计原则 •需要保证裸金属卡内作为Host-CPU PCIe Slave的部分完成启动后,主板CPU才进行上电及PCIe初始化工作,以避免设备错过PCIe初始化时间点导致设备丢失;•当主板进入S0后,需要避免DPU卡下电导致Host端出现PCIe设备丢失;•建议管理平台作为第三方,对DPU卡与裸金属服务器上下电进行统一管理; 中国移动DPU标准及生态建设 中国移动DPU标准及生态建设 中国移动从标准体系构建、产业生态催化两方面进行攻关,推动DPU产业稳步发展打造解耦开放型DPU标准和新生态 凝聚产业合力推进产业稳步健康发展 •三大定位:产业聚合平台、技术方案实验床、业务场景孵化器•生态聚合:已汇聚28家云平台、服务器、DPU厂商 •CCSA TC1牵头DPU总体技术要求等行标立项•CCSA TC606(ODCC)牵头裸金属服务器技术规范立项 •1套DPU技术架构•5大软件功能接口定义•硬件4个维度统一 中国移动DPU标准及生态建设 中国移动发布《NICC新型智算中心技术体系白皮书》,指出DPU可在智算领域三大应用场景,与计算、网络、存储深度协同,助力算效提升 面向不断涌现的新兴场景,希望产业共同探讨前沿技术方案,深化标准体系,普惠DPU能力 •裸金属、容器、虚机统一管理•多租户存储隔离,存储灵活分配 •端网协同,满足可编程拥塞 控 制 、 超 大Q P数 量 等RDMA标卡无法解决的高级需求 •文件系统卸载,训练数据格式统一化•块存储协议栈硬件加速,提供高性能云盘 多层级探讨硬件规范,聚拢产业伙伴,达成技术共识,助推产品规模应用 芯片层级 未来,中国移动愿与开放数据中心一道持续推进新技术生态建设