背景介绍
识货App是面向年轻用户的消费决策平台,提供正品导购、品牌营销等服务,是国内电商导购细分领域TOP1,用户规模持续增长,业务涵盖运动、潮流、生活等多个类目。识货App的业务特点是大促场景流量/订单激增,电商业务多为无状态服务,流量呈现波峰波谷的周期性变化。
云原生降本提效
为解决低成本、高效能的问题,识货App采用混部、超卖、弹性、治理、智能预测等技术手段。
混部与超卖
- 混部目标:提升集群资源利用率,降低IT成本,简化集群资源管理。
- 混部解决的问题:容器混合部署时的互相干扰,资源竞争引发应用响应时间抖动,在线服务类型应用单机的资源竞争。
- 混部方案:节点维度混部,集群维度混部,资源优先级和服务质量模型,细粒度的容器资源编排和隔离机制。
- 超卖机制:将申请而未使用的资源利用起来,总内存和CPU的1/2部署为可超卖,实际超卖1/5和1/3,确保CPU和内存隔离,优先保证在线作业。
- 落地效果:将后台服务和任务类服务应用到混部中,CPU和MEM超卖,整体集群资源利用率从7%提升到20%。
弹性计算
- 弹性现状:固定实例数、HPA、CronHPA等方案存在利用率低、健壮性差、周期偏移、适应性差等问题。
- 智能弹性目标:资源提前预热,实时调整容量,按需弹性,智能弹性策略规划,避免人工规划误差。
- 智能弹性工作原理:预测POD扩容因素,目标CPU使用率(RT/QPS),根据POD生命周期计算冷启动时间。
- 落地效果:商品库基础服务的预测pod数量曲线和CPU趋势保持一致,达到弹性效果。
总结和后续演进
- 降本提效收益:CPU使用率从7%上升到35%,弹性计算成本节省约40%。
- 后续演进方向:大数据容器化,Spark/Flink/PresAI机器学习,云原生化。
- 落地成果:能效提升和服务治理落地,有效的监控体系,数据化运维+模版化扩容。