拒绝孤岛:可观测数据融合分析总结
一、可观测挑战
- 系统复杂:系统更加复杂,开发涉及更多人,运行环境多种多样。
- 技术依赖:技术依赖广泛,包括开源软件、SaaS等。
- 发布频率:发布频率从一年一次到一天一次不等。
- 计算节点数:节点数从静态到动态变化。
- 参与人数:从单兵协同到多人协作。
- 基础设施:物理机、虚拟机、容器、微服务等多种基础设施。
二、什么是成熟的可观测方案
- 自动发现服务:自动发现服务和基础设施。
- 自动生成服务拓扑:全栈数据从客户端到服务端。
- 统一工具:减少跳转上下文,降低学习代价,提高易用性。
- 海量存储:支持PB级数据存储,实现快速查询。
- 实时性:秒级响应时间。
- 告警能力:高基数问题处理,基础的异常检测和根因分析。
- 数据关联分析:跨多种数据源的关联分析。
- 数据融合分析:支持Log、Metric、Trace等多种数据源的融合分析。
三、可观测数据分析发展历程
- 多套系统:早期使用Jaeger、Grafana、Kibana等工具。
- 统一可视化:通过Grafana、Loki、Tempo等工具实现统一可视化。
- 降低维护代价:统一分析语言,更快、更便捷地挖掘观测数据价值。
四、可观测数据融合分析
- 数据类型:包括Logs、Metrics、DB、CMDB、ML模型、Traces、Profiling等。
- 数据来源:如网络登录日志、支付日志、配置日志、系统日志等。
- 技术难点:统一海量存储、数据关联分析、实时性、PB级规模应对突增写入、多维度数据分析等。
五、SLS可观测技术架构
- 存储引擎:全栈数据采集,智能算法与编排。
- 分析诉求:弹性分析能力,支持SQL、PromQL等查询语言。
- 融合分析:数据导出、异常检测、时序预测、文本聚类等。
六、案例分析
- 案例1:全量可观测数据建设实践,涵盖各种观测数据。
- 案例2:多端全链路融合可观测,应用于车机APP服务端。
- 案例3:基于SQL进行指标治理,实现多数据类型关联分析。
- 案例4:带状态的流式异常检测,提升实时查询能力。
七、可观测成熟度模型
- 监控数据查询自动化:实现监控数据的自动化观测。
- 监控大盘:提供监控大盘以展示系统健康状况。
- 告警系统:自动发现故障并定位根因。
- 持续改进能力:提升系统稳定性,减少故障间隔。
通过上述总结可以看出,可观测数据融合分析旨在解决系统复杂性和技术依赖等问题,通过成熟的解决方案实现高效的数据管理和实时分析。