案例研究:采用性能 SLA 的阿里巴巴
阿里巴巴通过性能 SLA 和功率上限管理实现云资源优化。其电源管理架构结合应用程序管理案例,展示如何通过 DVFS(动态电压频率缩放)和 CCx(核心 C-状态)技术防止性能降级。关键场景包括高优先级实例与低优先级实例的协同管理,以及已封顶实例的性能保障。
案例研究:精细粒度电源管理旋钮
云电源性能要求涉及 SLA、可靠性、Opex 和 Capex 优化。通过 PowerIDC、热效率频率、Power 平台(Px/Cx 状态、热处理器频率、DIMM 存储等)实现精细化管理。英特尔实践案例包括:
- 工作负载管理(PnP 分析、模拟、权力封盖、动态核心管理)
- 智能剃须峰 BBU(涡轮架)
- HW 遥测与女服务员调度
- K8S、OpenDCM、Redfish 等云操作系统支持
案例研究:红鱼的收养和实践
云电源性能优化中的 API 要求通过 Redfish 实现:
- 支持运行时配置和云规模部署
- 互操作性(基础设施与资源平面、服务器与设施)
- 一致 API 模型(带内/带外接口)
- 智能调度策略与电源冗余管理(如 PDU、BBU、服务器等分层封顶)
案例研究:呼吁采取行动
- 开放标准化 API(如 OCP 硬件管理配置文件)可降低大规模云部署成本。
- 性能 SLA 驱动的功率优化对 TCO 和 PUE 效率至关重要。
- 云开发者和用户需定义应用性能要求,推动平台协同创新。
- 参与 OCP 项目:https://www.opencompute.org/projects/hardware-management