隋吉智(左知)阿里云基础设施事业部可观测研发工程师 隋吉智(左知) 公司职位阿里云基础设施事业部可观测研发工程师 就职于阿里云基础设施事业部可观测团队,在可观测领域尤其指标场景有较丰富经验,针对大规模集群指标采集和处理有较多生产实践积累,采集探针性能调优和稳定性建设经验丰富。 在可观测领域的主机可观测场景,有较多探索和实践落地经验。 主 机 统 一 可 观 测 面 临 的 挑 战 目录 主 机 统 一 可 观 测 现 状 分 析 主 机 可 观 测 阿 里 云 技 术 实 践 主 机 统 一 可 观 测 实 践 收 益 主机统一可观测面临的挑战 挑战与难点一 基础监控与应用监控 自动化发现与安装 主机的及时准确自动化服务发现能力,尤其在快速弹性伸缩场景。发现主机后是否具备采集探针的自动化安装。 覆盖主机的基础资源、网络、系统监控等,同时覆盖主机上层应用运行监控。 指标覆盖度 稳定与故障恢复能力 主机的基础监控指标,涵盖性能、资源、网络、负载等。主机的高阶监控指标,涵盖内核、进程、应用等。 主机上指标采集探针的可靠与稳定性,是否具备一定的故障的自恢复能力。 挑战与难点二 大规模采集问题 大数据处理问题 主机达到一定规模后,后端数据处理链路的抗压能力,大数据的处理效率,决定数据查询和告警的延迟时间。 主机达到一定规模后,分散的大量采集探针或者Exporter,如何能做到低故障率运行,亦或故障自恢复效率,决定指标的齐全度。 大数据使用问题 大数据查询问题 高频和大量数据查询时,时序数据库或者数据处理链路的处理效率,直接影响可观测的展示效果和告警的时效性以及准确性。 大量指标数据统一存储后,如何从中提取高价值指标,并对其高效使用,需要SRE人员的经验积累。 挑战与难点三 统一存储问题 指标体系问题 主机分布在不同云厂商和自建IDC机房内,跨区域、跨账号的主机监控指标如何进行统一存储和统一查询。 来自多云主机的监控指标,指标体系是否统一标准,直接决定统一可观测和统一告警能否实现。 多云主机 标签富化问题 网络问题 主机分布在多云厂商和自建IDC机房,网络环境各不相同,网络限制规则也各不相同,如何打通网络的连通性,最后进行指标的统一存储。 多云厂商和自建IDC机房的主机,指标统一存储后,一定需要标识主机来源,需要进行标签的源头富化。 主机统一可观测现状分析 两种类型主机监控现状 Linux主机监控现状 •被动拉取模式,类似开源Windows-exporter组件,运行在主机上收集指标并暴露指标,再通过Prometheus拉取指标。 •被动拉取模式,开源类似Node-exporter组件,安装到主机上收集并暴露指标,再通过Prometheus拉取指标。 •主动推送模式,各个云厂商提供的主机指标采集探针,安装到主机上收集指标并主动推送指标到云厂商存储。 •主动推送模式,各个云厂商提供的主机指标采集探针,安装到主机上收集指标并主动推送指标到云厂商存储。 Windows主监控现状 阿里云在主机监控场景具备哪些能力 3.提供主机基础监控、进程监控、上层应用监控,多维度聚合视角观测。默认集成主机总览和详细大盘,进程级别详细资源消耗、进程状态等大盘展示。 1.阿里云主机监控,采用全托管Prometheus模式,采集配置自动生成,支持指标废弃能力,指标富化能力。 4.指标统一阿里云Prometheus实例存储,统一观测、统一告警。 2.阿里云主机监控,针对阿里云ECS支持自动服务发现和Exporter自动安装能力,同时具备守护和Exporter故障自恢复能力。 国外主要厂商主机监控现状 DataDog Azure 1.提供采集探针运行在主机上收集指标和上报。2.主机基础监控齐全,包括基础、进程、网络等。3.提供多维度聚合视角,具备洞察高价值指标能力。 1.提供采集探针运行在主机上收集指标和上报。2.主机统一可观测,涵盖基础、进程、网络、日志、容器等。3.提供主机地图,可按照来源、区域等维度聚合分析等。 NewRelic AWS 1.提供采集探针运行在主机上收集指标和上报。2.围绕主机为实体展示多维度可观测数据。3.提供多维度聚合视角,提供红绿灯式监控状态展示等。 1.提供采集探针运行在主机上收集指标和上报。2.主机基础监控齐全,包括基础、进程、网络等。3.提供多维度聚合视角,具备洞察高价值指标能力。 主机可观测现状总结 统一接入与观测 1.厂商间提供的默认观测大盘,能力上各有不同。 1.各个厂商都提供指标采集探针。 2.提供统一存储,统一告警,使用方式上差异较多,分散管理会有较高的管理和理解成本。 2.围绕主机提供基础监控、进程监控、应用监控等,多维度视角聚合等能力。 3.接入方面可手动安装和部分自动化安装采集探针等。 统一存储与告警 主机可观测阿里云技术实践 阿里云主机统一接入流程图 阿里云主机统一观测接入方式 非阿里云主机统一可观测指标采集方案 1.部署开源Prometheus,remoteWrite投递 阿里云主机统一可观测指标体系统一方案 阿里云主机统一可观测指标来源标识方案 阿里云主机统一可观测指标存储与观测 阿里云主机统一可观测大盘 ECSOverview大盘0 1.总览主机数量、健康状态2.多维度聚合视角,覆盖基础、进程、应用观测 ECSDetail大盘0 1.覆盖基础资源、网络、进程等详细观测信息2 0NodeProcessDetail大盘 31.覆盖进程列表、进程与线程数量关系等2.覆盖进程资源消耗、文件打开数量等 G O P S全 球 运 维 大 会 暨X O p s技 术 创 新 峰 会2 0 2 4·北 京 站 阿里云主机统一可观测统一告警 告警配置 1.简易化统一告警配置2.预置常用告警模版3.较高告警准确率 告警管理0 1.告警历史事件汇总查看2.告警历史事件分析3.告警通知策略灵活配置 阿里云主机统一可观测技术实践总结 统一指标体系和自动化采集,全托管Prometheus采集模式,指标体系统一02 统一观测和告警,聚合大盘精细化监控,统一告警配置和分析04 主机统一可观测实践收益 实践收益一:阿里云ECS,秒级+自动化服务发现方式,提升接入时效 实践收益二:阿里云ECS,自动安装Exporter+托管Prometheus,减少数据丢失 实践收益三:非阿里云主机,提供高性能全类型主机采集探针,简易化安装 实践收益四:主机统一观测与告警,降低运维复杂度 1.统一观测大盘,多维度聚合视角观测2.统一进程级大盘,任务详情查看3.统一告警配置与分析,灵活告警通知配置 实践收益总结 针对阿里云ECS,秒级+自动化服务发现,低延迟、提升接入时效01 针对阿里云ECS,Exporter自动化安装+托管Prometheus实时采集,减少数据丢失02 针对非阿里云主机,提供简易化安装的高性能指标采集探针,支持全类型主机03 提问交流环节 感谢大家观看