混部技术起源与阿里云原生混部技术发展历程
混部起源
混部技术源于对数据中心利用效率的不懈追求。2011年,埃森哲报告显示公有云数据中心利用率不足10%,而Google的数据中心利用率在30%~40%之间,企业资源成本极高。大数据技术发展迅速,计算作业需求增大,如何解决资源浪费问题成为关键。
混部定义呈现两种形态:
- 集群维度:在一个K8S集群内编排多种类型负载,共享资源池消除浪费。
- 节点维度:让多个类型负载在一个节点上运行,释放闲置资源价值。
混部需解决三个核心问题:
- 企业内不同业务线资源统一管理,解决资源池割裂带来的效率问题。
- 企业日常态与大促态资源灵活拆借,解决大规模资源弹性的效率问题。
- 企业内不同计算框架资源统一管理,解决资源池割裂带来的效率问题。
阿里混部技术历程
阶段一:容器化探索
阿里容器技术简史:
- 2011年:容器化探索(Zeus/Hippo/Fuxi),构建在线交易、搜索、大数据调度系统,解决资源碎片和运营成本问题。
- 2014年:T4容器引擎研发,淘宝业务从VM过渡到容器调度系统。
- 2016年:阿里构建了在线交易、搜索、大数据调度系统,收敛资源分散问题。
- 2018年:T4容器运维探索,实现容器异常全自动化运维。
- 2020年:混部技术水位做到领先行业。
阶段二:统一资源池
- Sigma资源调度系统:
- 整合物理机、容器、中间件资源池,实现统一资源管理。
- 支持在离线混部,实现资源池均衡使用。
- 统一大资源池模式下,调度策略更充分,资源利用率提升。
阶段三:云原生化
-
Sigma到Kubernetes转型:
- 兼容Kubernetes生态,支持标准CNI和CSI。
- 运维链路下沉,提升扩容速度和自闭环POD自愈能力。
- 支持多集群管理、五元组workload模型,开源OpenKruise技术。
-
统一调度:
- 基于Kubernetes的全场景混部,统一电商、搜索、大数据、蚂蚁的资源调度。
- 应用管理、流量管理、Quota管理、分时复用HPAVPACA等能力。
-
智能化:
- 提高资源精细化分配能力,提升在线业务部署密度。
- CPU Set规格自动化托管,应用画像+规格托管,sCPU归一化。
-
全面弹性:
- 支撑大规模弹性场景,如搜索与电商大促节点的数十万核模分时复用。
- 单集群百万核,高性能2万任务/s,低成本50%降低。
云原生混部技术及案例
-
大数据迁移趋势:
- 90%受访者认为Kubernetes支持有状态应用,70%已运行生产环境。
- Gartner预测70%AI任务通过容器、Serverless构建。
- 超过77%受访者表示其50%大数据应用将迁移到Kubernetes。
-
阿里云开源混部框架Koordinator.sh:
- 满足多样化工作负载的业务需求,提升集群资源效率。
- 支持算力异构、拓扑依赖、资源池化、多样化资源和工作负载。
-
分级资源模型+QoS精细化控制:
- 分级资源(超卖)调度提高编排密度。
- 丰富的QoS策略保障服务运行质量,如PriorityQoS+敏感延迟延迟不敏感差异化SLO。
-
QoS感知调度、重调度:
- 资源利用率均衡度影响运行时质量。
- 自定义多维度资源和权重,过滤负载过高的节点。
-
混部服务质量诊断:
-
容器服务ACK弹性及混部套件:
- 全时混部、全链路实时SLO保障、高性能低延迟调度。
- 完备混部策略、智能运维决策、异构资源优化。
-
客户案例分享–识货:
- 在线业务流量存在周期性变化,大促高峰流量最大超平时10+倍。
- 应用资源分配率高但利用率低,预留部分容灾资源。
- 智能弹性将节点上已申请而未使用的资源运行低优先级任务。
- 日常CPU使用率从7%提升至20%,内存利用率从40%提升至65%。
- 计算成本节省约20%。