AI智能总结
齐晨 个人介绍 齐晨新东方教育科技集团运维高级经理 新东方运维高级经理,SRE负责人,负责新东方全集团内业务运维保障工作。对保障SLA稳定性、可观测体系、云原生架构服务体系进行探索及落地,以平台化、标准化为理念完成降本、增效、安全的目标 1 目录 标 准 化 改 造 过 程 2 CONTENTS 可 观 测 产 物 3 功 能 持 续 迭 代 4 01压力 需求压力 人不够,太累了,我要标准化管理!! 统一可观测技术栈落地可观测监控平台,提高人效率 路由分发,报警降噪模板管理,统一告警通道 展示查询不统一,想看的不好找,不想看的一大堆!! 结合指标、日志、跟踪数据结合CMDB应用标签化选用应用黄金指标,增加灭火决策展示 增加统一dashboard展示增加决策工作台、健康度、健康评分管理 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 技术压力 重心压力 可观测 指标、日志、追踪、OpenTelemetry、监控报警体系改造 稳定性 HA、双活、限流熔断、灾难演练、动态扩缩、混沌工程 平台化 云原生 以应用管理为中心CMDB关联网状,以golang语言为底建立并逐步实现SRE标准化管理能力 容器K8s、服务网格、Serverless等云原生所涉及的技术栈的研究和应用 标准化 标准化现有运维应用业务管理、赋能自建、P4应用 降本、增效、安全 02标准化改造过程 底层调用架构改造前: 1、指标存储:prometheus、zabbix、nagios2、持久化指标存储:thanos3、日志存储:Elasticsearch4、日志告警:watcher、grafana-alert5、收敛告警:alertmanager6、告警通道:prometheusalert、alertmanager、zabbix、nagios 底层调用架构改造前问题: 1、指标监控存储使用多种,不便于统⼀管理2、持久化指标存储thanos不便于轻量数据接⼊、架构复杂不便于维护、使用对象存储资源长期存储成本较⾼3、日志监控采集单⼀,es日志收集较重,不便于运维日志轻量级使用4、公有云、私有云告警数据,apm告警、日志告警、指标告警需要单独配置5、没有统⼀的告警平台进⾏指标查看、规则制定、标签管理、告警管理、权限管理、故障自愈等功能 可观测-监控体系组件-改造后 底层调用架构改造后: 1、指标存储:prometheus2、持久化指标存储:VictoriaMetrics3、日志存储:Elasticsearch、Loki4、apm使用:skywalking、Bonree5、收敛告警:alertmanager6、告警通道:prometheusalert 底层调用架构改造后现状: 1、指标监控存储统⼀使用prometheus2、使用victoriaMetrics轻量级部署⽅案来取代thanos3、日志监控采集新增Loki,可同prometheus指标监控联动,便于运维轻量级日志使用4、汇聚收集trace、apm、log监控告警,以及公有云指标采集,便于分析统⼀告警5、新增统⼀的告警平台进⾏时序集群管理、统⼀规则管理、告警订阅、告警分发、故障自愈、事件管理、日志告警、标签管理、自监控等功能 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 可观测-改造-采集-通用类方案 Loki类写入 Snmp类收集 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 1、snmp插件准备 可观测-Telegraf+Loki实现硬件采集监控 2、OID节点查看取值 3、telegraf-loki对接配置 可观测-改造-采集-应用日志类方案 改造前-K8S日志收集过程:1、日志采集文件管理:通过黑屏脚本主机管理 2、日志需求配置管理:手工改写filebeat等收集文件3、日志K8S采集模式:采用sidecar模式创建filebeat容器进行应用日志收集,需要对每个应用的container进行资源配置 可观测-改造-采集-应用日志类方案 改造后-K8S日志收集:1、日志采集文件管理:通过运维后台标准化统一管理 2、日志需求配置管理:通过运维后台自动化统一生成,如有特殊日志需求通过白屏操作进行标准文件修改3、日志K8S采集模式:二开K8S功能生成DaemonSet模式采集服务,进行统一采集日志 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 可观测-改造-采集-应用日志类方案 优点: 1、标准化:改造后因通过系统后台白屏⽣成标准化采集配置⽂件,便于运维管理、应用管理修改、应用关联追踪2、自动化:改造后自动⽣成配置、 自动进⾏日志采集,⽆需再在流⽔线或在K8S配置管理;同时可跟整个ELK流程进⾏接⼝对接,时间全流程自动化采集,提升运维⼯作效率3、降本:改造后因开发K8S的 DaemonSet模式管理功能,K8S日志资源使用及成本费用降低35%4、稳定性:改造后避免了之前采 用sidecar模式⼤量日志容器与业务容器混在同POD⽽造成的互相影响,以及可以对磁盘空间的管理 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 可观测-改造-监控-Thanos OR VictoriaMetrics ? 可观测-改造-监控-Thanos OR VictoriaMetrics ? 架构部署高可用方面 01 都可做为长期存储及集群解决方案vm较thanos架构较为轻量,维护成本较小 写入读取数据方面 总体:thanos使用S3对象存储且Thanos组件相对较多,而vm采用文件系统存储,读写架构更为简单写方面:vm支持多种数据来源,thanos相对单一读方面:新数据性能相当,都从内存和磁盘加载;但旧数据读取时,thanos需要从通过存储网关远程拉取,vm则是通过本地拉取 02 资源成本方面 03 计算资源:CPU资源相当,内存资源vm为Thanos的1/4存储资源:thanos大部分使用对象存储,相比vm使用本地存储,费用较低流量资源:thanos因为组件和存储特性,组件间同存储的网络流量较多,而vm组件较少且同本地存储,流量成本较低 可观测-改造-加工-OpenTelemetry体系与企业应用CMDB相结合 可观测-改造-告警-路由、模板、通道 03可观测产物 可观测-数据分类及产出 基础设施类-硬件、主机、网络监控指标 容器、虚机、中间件、DB的CPU、Mem、磁盘IO、load、流量、PING等基本监控指标 应用类-日志埋点、apm数据 域名类-服务拨测监控 主动探测节点UP状态、HTTPstatus code、DNS lookup时间、SSL过期时间 可用性SLA 容量规划、双活决策灭火 采集关健信息数据,按照业务线-业务-应用-主机标签的维度进行容量规划分析及决策灭火 事件管理 应用健康评分&健康度 包含主机系统评分、主机网络评分、容器系统评分、服务拨测评分;按照应用标签化为pandora系统提供接口及Dashboard 按照业务线、业务、应用等标签化排列组合展示报警指标看板;按照应用标签化为pandora系统提供接口及Dashboard 可观测-产出-监控平台升级、运维能力外放 可观测-产出-监控平台升级、运维能力外放 可观测-产出-应用可观测看板联动应用查询 可观测-产出-业务线应用健康评分 可观测-产出-决策灭火图 可观测-产出-决策灭火图 可观测-产出-决策灭火图 可观测-产出-决策灭火图 04功能持续迭代 可观测-功能持续迭代 1、标签转换&添加前置2、增加oncall平台,汇总原有告警路由,新增告警升级进阶等功能3、增加基于eBPF数据的数据采集及纳入整体可观测体系 可观测-前置数据标签化 可观测-oncall告警分组升级 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 可观测-eBPF数据探索 1、deepflow数据补充可观测数据,提供全局展示2、同内部CMDB结合,在deepflow数据中打业务数据属性标签3、将deepflow数据接入原有监控数据,补充告警数据及维度查询 开放运维联盟高效运维社区DevOps时代 荣誉出品