行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

去哪儿旅行混合云容器稳定性治理实践

2023-04-30开放运维联盟&高效运维社区&DevOps时代芥***

AI智能总结

去哪儿旅行混合云容器稳定性治理实践总结

一、背景与目标

去哪儿旅行为应对业务复苏后的服务器资源短缺及私有云资源弹性能力差等问题，采用混合云策略以实现降本增效。混合云目标包括：

降本：IDC 资源利用率从20%提升至40%-60%，释放本地存储成本。
增效：业务自动弹性扩缩容，业务高峰无需人工扩容，稳定性达99.995%。混合云策略包括业务优先IDC部署，超阈值自动弹公有云，存储上云及冷数据上云。

二、混合云场景下的容器稳定性挑战

混合云环境下，容器稳定性面临多维度挑战：

业务视角：关注上公有云价值、应用影响及平滑弹缩。
平台视角：需保障公有云应用整体SLA，提供与私有云同等服务体验。
具体挑战：可靠性、平滑上云、故障应急链路耗时、体验一致性、平台功能泛化、资源容量、实例交付效率、系统瓶颈、容灾能力等。

三、治理思路

分阶段实施容器稳定性治理：

阶段一（低峰期）：充分验证公有云观测指标、根因分析与预案推荐、一键快速下云。
阶段二：灰度并全量P3、P4应用，然后全量。
阶段三：灰度并全量P1、P2应用。治理思路包括：

可靠性保障：公有云可用区failover、私有云应用级多机房failover。
系统瓶颈治理：压测评估系统容量、业务流量预测、缩减发布批次、系统优化（应用授权、高配pod减少实例数）。
平台功能泛化：增强容器的自助运维能力（重启、debug、流量摘除、重建等），提升一致性体验。

四、治理实践

1. 可靠性保障

平滑上云：制定应用上云流程、容器上云流程，分阶段验证。
故障应急：
- 完善公有云观测指标，实现秒级监控、分钟级定位与恢复。
- 根因分析准确率达70%，提供预案推荐。
- 容灾能力：私有云应用跨机房部署，公有云AZ可用性巡检与failover。

2. 系统瓶颈治理

链路延时影响评估：公有云到私有云延时0.7～1ms，500+ P1/P2应用可上云。
资源容量评估：结合业务流量预测（五一经验压测流量2-4倍），调整业务与性能指标。
资源交付效率提升：
- 优化启动速度（spring并行初始化效果不大，tomcat秒级初始化）。
- 优化发布时长：高配pod减少实例数，发布时长降低70%，节省20%资源。
- 发布策略支持先缩后扩。

3. 平台功能泛化

常用功能支持：容器原地重启、批量重启、远程在线debug、发布终止后不接流量、自助缩容（优先缩公有云实例）。
具体实践：
- 容器原地重启：使用OpenKruise ContainerRecreateRequest，定期清理保留pod。
- 远程debug：依赖原地重启功能，保障配置变更持久化。
- 发布终止不接流量：通过vk并发更新annotation/label解决并发覆盖问题。
- 缩容：优先缩公有云实例，利用k8s RS或OpenKruise CloneSet方案。

五、未来规划

跨云能力完善：中间件、DB、Redis、监控系统等架构完善，确认上云能力。
跨云容灾：实现公有云与私有云互备，机房级别容灾。
容器调度优化：支持用户自助上云、下云操作。
稳定性目标提升：
- 通过AIGC提升根因分析准确率。
- 提升预案推荐覆盖率和准确率。
- 部分场景自愈。

六、核心观点与结论

去哪儿旅行的混合云容器稳定性治理实践通过分阶段实施、系统性瓶颈治理和平台功能泛化，有效提升了容器稳定性与运维效率。未来将持续完善跨云能力与智能化运维，以实现更高水平的稳定性目标。

个人介绍邹晟去哪儿旅行基础平台技术专家 2017年加入去哪儿旅行,云原生SIG成员，主要负责DevOps平台的规划和实施、研发效能的提升，近期一直在做混合云的容器稳定性治理、根因分析、预案系统等工作去哪儿旅行混合云背景 1 目录混合云场景下的容器稳定性挑战 2 CONTENTS 面向业务的容器稳定性治理思路 3 面向业务的容器稳定性治理实践 4 5 01去哪儿旅行混合云背景混合云背景混合云的目标-降本增效此处添加详细文本描述此处添加详细文本描述此处添加IDC资源利用率从20%提升到40%-60% 此处添加详细文本描述此处业务自动按需弹性扩缩容 02混合云场景下的容器稳定性挑战不同关注点 •上公有云的价值•对现有应用的影响业务视角 •保障上公有云后应用的整体SLA•提供和私有云同样的服务体验平台视角 •平滑地弹缩公有云•公有云高可靠•成本优势 ops视角混合云挑战价值认同系统瓶颈自上而下平滑上云故障应急容灾能力 03治理思路容器可靠性保障思路平滑上云容灾能力故障应急 1.完善公有云观测指标2.根因分析与预案推荐3.一键快速下云 1.阶段一：低峰期充分验证2.阶段二：灰度并全量P3、P4应用，然后全量3.阶段三：灰度并全量P1、P2应用 1.公有云可用区failover 混合云系统瓶颈治理思路资源交付效率资源容量链路延时发1.应用启动加速2.缩减发布批次系统优化:应用授权3.升级为高配pod,减少实例数 1.压测评估系统容量2.业务流量预测一致性体验治理思路平台功能泛化 2.对容器的自助运维能力（重启、debug、接入摘除流量、重建等）1.交付顺畅度（公有云的api限流、个别pod失败等） 04治理实践治理实践阶段可靠性保障治理实践-平滑上云可靠性保障治理实践-平滑上云可靠性保障治理实践-故障应急完善公有云观测指标可靠性保障治理实践-故障应急发现-定位-恢复可靠性保障治理实践-故障应急根因分析可靠性保障治理实践-故障应急预案推荐可靠性保障治理实践-故障应急可靠性保障治理实践-故障应急容灾能力系统瓶颈治理实践-链路延时影响评估结论：1.公有云到私有云延时0.7～1ms，影响看业务的链路总时长增加多少2. 500+ P1/P2应用可以上云系统瓶颈治理实践-资源容量评估系统瓶颈治理实践-资源交付效率提升痛点：核心业务应用上千实例，一次发布1-2个小时 1.定义测量(spring、tomcat、预热、发布阶段) 优化过程： 2.分析数据 3.验证系统瓶颈治理实践-资源交付效率提升 1.受mysql连接数、redis连接数、dubbo zk连接等资源影响2. mysql改为应用授权3. dubbo升级为dubbo3按应用维度注册，降低zk连接数 1. spring启动速度和bean数量有关，并行初始化效果不大2. tomcat 1秒完成初始化3.应用进程启动1分左右4.预热1min-2min 1. pod资源改为16/32c,32/64/128/256G大pod后，发布时长降低70% 优化总结：：大应用采用高配额的pod优化效果最佳，减少发布批次是长期收益的工程，需要持续演进平台功能泛化治理实践-容器原地重启重启流程平台功能泛化治理实践-容器远程debug 远程debug流程平台功能泛化治理实践-发布终止后不接流量发布流程问题点：公有云标记online偶尔会不成功，导致发布失败平台功能泛化治理实践-发布终止后不接流量 vk并发更新annotation/label被覆盖平台功能泛化治理实践-缩容优先缩公有云实例方案选型 1.原生k8s支持方案 k8s 1.21+通过指定注解controller.kubernetes.io/pod-deletion-cost实现指定pod缩容 2.利用k8s RS缩容pod规则，优先删除not ready的pod 删除前对pod摘除流量，状态变为notready,再进行缩容 3.利用k8s RS缩容pod规则，同等条件下优先删最后ready的pod公有云机器大多数情况下是最后扩容、最后ready的（默认选项，实现成本最低） 4. OpenKruise CloneSet原生支持缩容指定pod 05未来规划未来规划容器调度优化跨云容灾跨云能力完善 1-5-10稳定性目标中间件，DB，Redis、监控系统等架构完善，确认上云能力通过长期改造，实现通过公有云和私有云的互备，实现机房级别容灾能力 1通过AIGC推理能力提升根因分析准确率2.提升预案推荐覆盖率和准确率3.部分场景自愈支持用户自助上云、下云操作开放运维联盟高效运维社区DevOps时代荣誉出品

点击免费查看完整报告