传音移动互联可观测体系设计与落地
业务架构与特点
传音控股作为非洲智能手机市场领导者(市场占比47.9%),其移动互联广告平台需实现精准营销。业务架构基于Kubernetes生态,包含IaaS(VM、存储、网络、安全)、PaaS(数据库、中间件)及微服务(如A1、A2、B1、B2),技术架构采用Spring Cloud微服务、云原生容器化,并部署于全球多地域(法兰克福生产、新加坡测试、上海开发)。
可观测挑战
- 观测对象多且杂
- 微服务多,调用链路复杂
- 新服务上线频繁,运维工作量大
可观测性整体设计思路
- 指标观测:分层设计,至上而下,核心指标包括SysLog、HardwareLog、Accesslog、Nginxlog、DBLogs、应用日志、CPU、MEM、Network、消息堆积、数据库连接等。
- 告警驱动运维:通过IM完成事件闭环,告警分级评估、分配处理人、状态追踪,并支持事后回溯。
- 问题定位:以链路为主,日志为辅,指标与链路打通。
- 技术选型:优先开源标准(Prometheus、OpenTelemetry)和云服务。
全生命周期观测指标设计
- 资源层观测:节点内存、CPU、网络带宽、磁盘空间。
- 容器层观测:工作负载(Deployment、Pod)、控制面(APIServer、ETCD)。
- 云服务层观测:负载均衡(SLB)、云数据库(Redis、RDS)、消息队列(MQ)。
- 应用层观测:应用健康度(耗时、状态码、联通性)、JVM监控(FullGC、Heap)、慢Sql、Ingress监控。
观测视图
- 解决分散缺失痛点:通过阿里云Grafana服务(杭州)实现全球多地域统一视图,数据源全球加速。
- 多维度大盘:K8S集群性能指标、应用性能指标、云服务指标,覆盖全栈。
告警平台
- 从告警盯人到ChatOps:智能分组、降噪、诊断自愈,基于PromQL的告警规则,统一对接飞书群处理。
全链路追踪诊断系统
- 规模化覆盖:容器环境自动接入,运维效率提升;自动生成全局拓扑,微服务依赖一目了然;端到端调用链追踪,快速定位慢调用和错误。
- 技术实现:ARMS Pilot Controller自动注入Java agent,ARMS应用监控与Deployment结合,实现指标观测关联链路和日志。
可观测架构大图
- 覆盖范围:资源层、容器层、PaaS层、Web层。
- 目标架构:全球多地域统一可观测架构,统一视图和告警,基于Prometheus和ARMS实现全链路追踪,通过Grafana提供统一视图,ARMS告警平台对接飞书群。
可观测建设之路
- 阶段演进:从基础指标观测到告警体系,再到应用性能观测、日志接入、AIOps提效、用户体验观测,最终实现可观测左移和面向业务运维SLO。
核心结论
传音通过构建全球统一可观测体系,实现了从分散到集中的观测管理,提升了运维效率和问题定位能力,并通过智能告警和全链路追踪进一步优化了运维流程。