AI智能总结
全生命周期高可用的云原生应用平台TKE AppFabric 何鹏飞主讲人: 开发现状:面向集群管理应用,稳定性和灵活性亟待提升 应用资源分散,管理效率低 对集群资源敏感,容灾难,利用率低 •管理大量K8S资源,既要熟悉K8S又要熟悉多集群组件,使用门槛高•资源间没有归属关系,相互关联,缺乏统一的应用状态、资源视图 •应用创建时,难以控制资源在不同物理位置的分布比例,不满足容灾要求•应用维护过程中,需要随着集群资源的动态变化,不断地被动调整应用部署方式•集群利用率低,升级、下线等操作,上层用户有感 应用面向多集群部署 应用是一系列K8S资源对象的集合 行业做法:如何提升应用管理的稳定性和灵活性 面向多集群工具管理K8S资源对象 管理K8S资源对象 面向可用区管理应用 面向可用区 面向单集群 面向多集群 •集群容量敏感,资源利用率高•集群拓扑敏感,可以高可用部署面向K8S资源•只管理应用资源对象,面向更易于理解的可用区部署,研发运维效率高 •集群容量敏感,资源利用率低•集群拓扑敏感,难以高可用部署面向K8S资源•管理大量K8S资源对象,研发运维效率低 •集群容量敏感,资源利用率高•集群拓扑敏感,可以高可用部署面向K8S资源•管理大量K8S资源对象,研发运维效率低 TKEAppFabric:应用管理的稳定底座与灵活引擎 面向可用区部署——更符合用户需求的资源分布模式 面向应用声明式编排——更符合用户习惯的应用管理模式 优势•应用视角,更特近应用维护场景,易于观 优势•更符合用户资源位置要求 特色 特色 测、运营•声明式编排,符合云原生规范•仅需学习应用如何编排,使用门槛低 •多可用区部署、分布、扩缩容、流量治理•支持变更分批、暂停、回滚,确保不影响线上服务•提供应用级的状态汇聚、事件汇聚、拓扑感知,可管理性更强 •按可用区拓扑调度,支持单集群多zone模式•支持设定副本在各个可用区的分布比例•精细化的资源容量感知能力•支持设置容忍度,容错率更好 •应用不直接感知集群,集群维护用户无感•集群资源共用,集群利用率更高 TKEAppFabric:全生命周期高可用的云原生应用平台 服务应用高可用 •全生命周期的应用高可用能力•应用视角的运维管理•基于最佳实践的应用稳定性增强 强大的多集群引擎 •统一的集群接入和舰队管理•集群标准化和基于特征的分组•资源差异化分发,容量再均衡 插件标准化 特征分组 舰队管理 多重集群类型支持 行业最佳实践:基于TKEAppFabric实现应用高可用 挑战 •饱受资源短缺困扰:应用面向集群部署,由于单集群资源常常不足,需要根据集群容量变化动态调整部署集群和资源副本量•难以有效地高可用部署:由于集群拓扑位置不可控,难以控制应用资源在真实可用区的分布比例,导致实际容灾能力受限•应用管理效率低:资源分散在多个集群,难以统一观测和控制 解决办法 •容灾部署:使用平台提供的多可用区部署能力,指定3可用区等比例部署•路由控制:基于平台内置的北极星服务,配置可用区级的就近访问、容灾切换能力,满足应用正常情况下流量可用区内闭环,异常情况下可跨可用区容灾的要求•灰度发布:使用平台内置的按可用区灰度发布能力,应用先在单可用区完成灰度验证之后再全可用区发布,降低发布风险 2024Q1-Q3 2024Q4 2025Q1 内部打磨 邀测 正式开放 •服务腾讯内部自研上云 •对限定用户开放•可选功能插件化改造