SberBank 将 Istio 从 PoC 阶段成功迁移至生产环境的过程及经验总结。SberBank 作为俄罗斯领先的金融服务提供商,拥有庞大的客户群体和市场份额,致力于技术创新和提升客户体验。其新 IT 平台强调高可靠性(99.99% 不丢失、0 离线时间),并依托 AI 平台实现显著营收和成本节约。
迁移背景与驱动力
SberBank 的 Istio 迁移遵循 Gartner 技术成熟度曲线,从 2019 年 1 月的 PoC 阶段开始,历经多个版本迭代(Istio 1.0/1.1/1.4/1.6)和 OpenShift 版本升级(OCP 3.11/4.1/4.4)。迁移的核心驱动力包括:
- 技术优势:通过服务网格(Service Mesh)消除集成中间件,实现无限吞吐量、性能提升和集成成本降低,采用云原生技术架构。
- 业务目标:支持高并发场景(如 HTTP/1、HTTP/2、gRPC),强化微服务间通信管控(如证书、ACL 配置)。
关键阶段与挑战
- PoC 阶段(2019 年 1 月-3 月):基于 Istio 1.0 和 OCP 3.11 进行初步验证,构建基础架构(Ingress/Egress、Event Hub、日志/追踪存储)。
- 生产部署(2020 年 3 月起):逐步升级至 Istio 1.1 及 OCP 4.1,重点解决高可用性(HA/DR)问题,引入负载均衡(LB)。
- 多租户与扩展(2020 年 12 月起):支持多租户场景,采用 Istio 1.4 和 Service Mesh Operator,优化资源消耗(侧车配置、资源挂载)。
- 规模化与优化:通过 Istio 1.6 和 OCP 4.4 实现扩展,解决生产环境下的性能瓶颈(如 Istio Discovery 重启、代理探测失败)。
核心经验与教训
- 技术挑战:
- 初始化容器(init containers)因权限问题(NET_RAW/NET_ADMIN)导致流量中断。
- 密钥轮换需谨慎,避免热重启(TCP 流量)、根证书重发(#14516)和 Discovery 过载(#25495)。
- 侧车资源消耗需调优,关注 Mount 资源占用(#15517)。
- 测试价值:生产规模测试暴露了 Istio Discovery 重启(#25495)和代理健康检查(#26792)问题。
未来计划
- 实现多集群发现(OCP/Kubernetes)、服务拓扑可视化、云原生 Event Hub 支持、VM 工作负载兼容性,并简化用户操作界面。
结论
SberBank 的 Istio 生产化实践验证了服务网格在大型金融科技场景下的可行性,但也凸显了多租户、资源优化和自动化运维的复杂性。其经验为同类企业提供了从 PoC 到生产的关键路径参考。