核心观点与关键数据
- SmartNIC 测试挑战:传统 SmartNIC 系统测试面临物理设置复杂、数据中心条件难以模拟、仿真模型保真度校准困难、工具链分散等问题。
- 测试需求:需要简化仿真模型校准、统一测试工具、自动化保真度校准、支持多种工作负载和数据流生成,并实现与供应商无关的开放 API。
- 解决方案:采用数据中心 in-a-box 结构,通过灵活拓扑、点击式部署、Open API 模型实现自动化和可重复性测试。
关键技术与方法
- 数据中心 in-a-box:提供灵活拓扑、服务器/NIC 自动部署、数据流生成器,模拟真实数据中心环境。
- Open API 模型:实现声明性配置,支持与供应商无关的社区生态系统,简化测试流程。
- 分布式数据流生成器:生成复杂分布式数据流模式,混合不同工作负载,模拟实际流量特征(如突发、峰值)。
- 性能指标分析:提供作业完成时间、流完成时间、传输统计等指标,评估系统性能和瓶颈。
研究结论
- 测试效率提升:通过数据中心 in-a-box 和 Open API,简化测试流程,提高测试效率和可重复性。
- 环境真实性:模拟真实数据中心环境,增强仿真模型的保真度,确保测试结果的可靠性。
- 工具链整合:统一测试工具链,避免供应商锁定,支持多厂商设备和解决方案。
- 创新聚焦:使团队能够专注于创新,而非测试设备的操作和维护。
演示与验证
- 演示设置:使用织物仿真器、计算节点、数据流软件和 NOS 等工具进行演示。
- 验证方法:通过多节点系统、深度学习训练的集体通信库、不同堆栈和 MPI 库进行验证,确保结果可重复性。
- 实验配置:支持配置传输层(TCP vs RoCE)、流引导、GRO、LRO 等参数,进行性能优化实验。