云原生技术演进带来的痛点
云原生技术发展导致观测对象种类多、动态化,面临数据融合难、实时监控难、故障响应慢、系统搭建维护成本高等挑战。
阿里云可观测体系介绍
阿里云托管版 Prometheus 存在数据孤岛、观测盲区、可维护性差、稳定性受限等问题。阿里云托管版 Prometheus 完全兼容 Prometheus 标准,结合 Grafana、智能告警等产品提供一站式指标观测平台,具备数据关联能力强、全栈覆盖、0运维成本、稳定性增强等特点。通过引入 InfluxDB 并优化查询性能,提升复杂查询效率。
阿里云一站式可观测平台:ACOS
ACOS 平台覆盖业务层、应用层、中间件层、系统层,提供业务监控、日志监控、前端监控、应用监控、eBPF 监控、OpenTelemetry 等能力。业务层支持自定义指标转化,应用性能观测集成 Jaeger、Opentelemetry 等协议,eBPF 方案实现无侵入、动态可编程、高性能、高安全性。中间件层支持 20+ 开源中间件 Exporters 和主流云服务集成,基础设施层覆盖多云 ECS/线下 IDC 应用组件。
阿里云一站式监控平台的实践
- 应用性能观测:通过 APM 产品集成、eBPF 无侵入观测方案,解决微服务调用次数增长、基础设施关联难、多工具融合等问题,实现代码级别根因定位。
- 中间件层观测:通过 Exporters 一键安装和云服务集成,提升指标广度和深度。
- 基础设施层观测:覆盖多云 ECS/线下 IDC 应用组件。
- 应用场景实践:在业务突发异常场景下,通过告警、业务监控大盘、应用监控大盘、应用日志&Trace 关联、中间件监控大盘实现根因定位。
核心观点与结论
阿里云一站式可观测平台 ACOS 通过整合 Prometheus、Grafana、智能告警等产品,结合 eBPF 等技术,实现全栈覆盖、数据关联、低运维成本,有效解决云原生环境下的观测挑战,提升故障响应能力和运维协同效率。