核心观点与演进路径
传统 Zabbix 监控的瓶颈
- 核心机房场景下,Zabbix 工作良好,但面临云原生化带来的挑战:
- 容器化导致监控指标量级从 10 万级增长至 1000 万级,Zabbix 内存不堪重负。
- 混合云多机房部署下,Zabbix 缺乏跨机房集群方案,且边缘计算与中心计算的权衡问题突出。
引入 Prometheus 的变革
- 选择 Prometheus 的原因:
- 天然支持 Kubernetes,适配器丰富,社区活跃。
- 时间线膨胀问题:
- 300 万活跃时间序列需 3GB 内存,1000 万时需 40GB,进一步增长将导致内存崩溃。
- 解决方案:
- 结合大数据平台(如 ClickHouse)的流计算能力,通过 Adapter 和 Kafka 实现时间线维度收缩,明细数据写入存储。
以应用为中心重构观测视角
- 观测流程:
- 信号展开:从应用 SLI 指标按维度展开,关联下游容器、主机等节点。
- 信号关联:实现从应用到容器再到主机的观测转移。
- 信号转换:将指标转换为链路,再转换为日志,形成完整排查路径。
- 云商能力整合:引入成熟技术方案降低建设成本,结合自建监控体系。
技术优化与未来展望
- 图数据库元数据存储:
- 提升查询效率 10 倍,动态生成拓扑结构,优化写入性能。
- AIOps 能力:
- 自动基线制定、故障点识别、典型链路拾取及曲线模式识别,实现无阈值告警。
- eBPF 潜力:
- 实现调度、内存、网络层面的可观测性,如基于 Tetragon 的链路跟踪,无需修改应用即可低开销深度观测。
关键数据与结论
- 云原生化导致监控量级指数级增长,传统工具失效。
- Prometheus 结合大数据平台可有效缓解时间线膨胀问题。
- 应用可观测平台需以“信号展开-关联-转换”为核心重构视角,结合图数据库和 AIOps 提升效率。
- 未来方向:eBPF 技术将拓展可观测性边界,实现更底层监控。