[阿里巴巴]：阿里巴巴云原生混部技术演进-曾凡松

混部技术起源与阿里云原生混部技术发展历程

混部技术源于对数据中心利用效率的不懈追求。2011年，埃森哲报告显示公有云数据中心利用率不足10%，而Google的数据中心利用率在30%~40%之间，企业资源成本极高。大数据技术发展迅速，计算作业需求增大，如何解决资源浪费问题成为关键。

混部定义呈现两种形态：

混部需解决三个核心问题：

阿里容器技术简史：

Sigma资源调度系统：
- 整合物理机、容器、中间件资源池，实现统一资源管理。
- 支持在离线混部，实现资源池均衡使用。
- 统一大资源池模式下，调度策略更充分，资源利用率提升。

Sigma到Kubernetes转型：
- 兼容Kubernetes生态，支持标准CNI和CSI。
- 运维链路下沉，提升扩容速度和自闭环POD自愈能力。
- 支持多集群管理、五元组workload模型，开源OpenKruise技术。
统一调度：
- 基于Kubernetes的全场景混部，统一电商、搜索、大数据、蚂蚁的资源调度。
- 应用管理、流量管理、Quota管理、分时复用HPAVPACA等能力。
智能化：
- 提高资源精细化分配能力，提升在线业务部署密度。
- CPU Set规格自动化托管，应用画像+规格托管，sCPU归一化。
全面弹性：
- 支撑大规模弹性场景，如搜索与电商大促节点的数十万核模分时复用。
- 单集群百万核，高性能2万任务/s，低成本50%降低。

大数据迁移趋势：
- 90%受访者认为Kubernetes支持有状态应用，70%已运行生产环境。
- Gartner预测70%AI任务通过容器、Serverless构建。
- 超过77%受访者表示其50%大数据应用将迁移到Kubernetes。
阿里云开源混部框架Koordinator.sh：
- 满足多样化工作负载的业务需求，提升集群资源效率。
- 支持算力异构、拓扑依赖、资源池化、多样化资源和工作负载。
分级资源模型+QoS精细化控制：
- 分级资源（超卖）调度提高编排密度。
- 丰富的QoS策略保障服务运行质量，如PriorityQoS+敏感延迟延迟不敏感差异化SLO。
QoS感知调度、重调度：
- 资源利用率均衡度影响运行时质量。
- 自定义多维度资源和权重，过滤负载过高的节点。
混部服务质量诊断：
- 混部服务质量分析大盘。
容器服务ACK弹性及混部套件：
- 全时混部、全链路实时SLO保障、高性能低延迟调度。
- 完备混部策略、智能运维决策、异构资源优化。
客户案例分享–识货：
- 在线业务流量存在周期性变化，大促高峰流量最大超平时10+倍。
- 应用资源分配率高但利用率低，预留部分容灾资源。
- 智能弹性将节点上已申请而未使用的资源运行低优先级任务。
- 日常CPU使用率从7%提升至20%，内存利用率从40%提升至65%。
- 计算成本节省约20%。