腾讯自研业务容器化上云历程及主要问题:
- 自研业务容器化上云架构包括独立集群架构(教育、直播等专属集群)和公共集群架构。
- 主要问题:公共集群节点装箱率差、资源利用率低、运营成本高、海量节点运维成本高。
在线混部集群的资源利用率提升方案:
- 方案包括动态调度器、二层资源动态超卖、弹性伸缩、业务配额动态管理。
- 动态调度器通过自研解决Kubernetes原生调度器静态调度的痛点,均衡节点资源。
- 二层资源动态超卖技术通过动态调整节点资源超卖比,提升CPU利用率(提升30%~40%)。
- 弹性伸缩通过多集群资源协调器和二级弹性资源池,实现自动化和标准化节点管理。
- 业务HPAPlus-Controller和CronHPA-Controller支持业务弹性伸缩和周期性伸缩。
稳定性提升方案:
- 深入内核层面提供节点及容器级稳定性指标,进行自愈和协同调度编排。
- 检测指标包括Dockerd/Containerd/Kubelet状态、OS稳定性指标、节点网络异常、内核稳定性事件等。
拥抱腾讯云弹性容器服务 EKS 价值所在:
- EKS采用Serverless架构,以Pod为交付资源,理论上可无限制扩容。
- 采用Pod间虚拟化隔离技术,租户间绝对隔离,安全性高。
- 支持异构算力、弹性效率、安全性、高可用性、社区生态支持等。
存量 K8s 集群应用平滑迁移弹性容器服务 EKS 的落地实践:
- 通过平滑迁移架构,实现Kubernetes API和命令行兼容。
- 正在引入EHPA预测流量、进行资源配置推荐,提升资源利用率和用户信心。