行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

助力降本增效：新东方可观测体系标准化改造

2023-05-05新东方教育科技集团Z***

AI智能总结

新东方可观测体系标准化改造研报总结

一、核心背景与需求压力

新东方教育科技集团为应对运维体系面临的挑战，启动了可观测体系标准化改造项目。主要压力来源于：

运维指标不足：现有监控工具（Prometheus、Zabbix等）采集指标单一，需自建采集系统。
报警管理滞后：报警平台功能缺失，自建报警响应慢，缺乏统一管理。
技术栈分散：云原生技术（K8s、Serverless）引入后，监控工具链复杂，缺乏标准化。
数据整合不足：指标、日志、追踪数据未有效结合，缺少应用属性和决策支持。
展示效率低下：监控平台查询分散，缺乏统一仪表盘和决策工作台。

二、标准化改造过程

1. 底层架构重构

指标存储：统一采用Prometheus，替换原有多存储方案（Prometheus、Thanos、VictoriaMetrics）。
日志存储：引入Loki替代Elasticsearch，实现轻量级日志采集与Prometheus联动。
APM监控：整合Skywalking和Bonree，统一收敛告警。
告警平台：升级Alertmanager，实现统一规则管理、告警分发和自愈功能。

2. 采集方案优化

通用采集方案：支持InfluxDB、Loki、JSON、Telegraf、SNMP、OpenTSDB等多种数据源。
K8s日志采集：改造为DaemonSet模式，降低资源消耗（成本降低35%），提升稳定性。
硬件监控：通过Telegraf+Loki实现SNMP设备监控。

3. 数据加工与关联

OpenTelemetry体系：与企业CMDB结合，实现应用标签化，支持多维度关联分析。
告警降噪：通过路由分发和模板管理，减少告警冗余，统一告警通道。

三、可观测产物与功能产出

1. 数据分类及产出

服务类：DB、中间件性能监控。
应用类：日志埋点、APM数据、拨测监控。
基础设施类：主机、网络、容器基础指标。
事件管理：虚拟化、容器、应用变更事件监控。

2. 关键功能模块

可用性SLA采集：按业务线-应用-域名维度评估SLA。
健康评分体系：分主机系统、容器系统、业务应用、网络、拨测五层评分。
决策灭火图：结合指标、日志、追踪数据，支持容量规划和故障决策。
决策工作台：集成健康度、评分、收敛告警等决策支持工具。

3. 平台升级与运维外放

监控平台升级：实现配查报改（配置、查询、报警、变更）自动化。
应用可观测看板联动：支持多维度查询和标签化展示。

四、功能持续迭代方向

标签前置处理：增强数据标签化能力。
Oncall平台：整合告警路由，增加告警升级机制。
eBPF数据采集：引入Deepflow数据补充监控维度，结合CMDB实现业务属性标签化。

五、研究结论

新东方通过标准化改造，实现了可观测体系的统一化、轻量化、智能化，关键成果包括：

降本增效：K8s日志采集成本降低35%，告警降噪提升效率。
数据整合：多源数据融合，支持决策分析。
运维能力外放：平台自动化程度提升，赋能一线运维。
技术前瞻性：引入eBPF等新技术，持续优化体系。

项目验证了云原生环境下可观测体系的标准化改造路径，为同类企业提供了可复制的实践参考。

齐晨个人介绍齐晨新东方教育科技集团运维高级经理新东方运维高级经理，SRE负责人，负责新东方全集团内业务运维保障工作。对保障SLA稳定性、可观测体系、云原生架构服务体系进行探索及落地，以平台化、标准化为理念完成降本、增效、安全的目标 1 目录标准化改造过程 2 CONTENTS 可观测产物 3 功能持续迭代 4 01压力需求压力人不够，太累了，我要标准化管理！！统一可观测技术栈落地可观测监控平台，提高人效率路由分发，报警降噪模板管理，统一告警通道展示查询不统一，想看的不好找，不想看的一大堆！！结合指标、日志、跟踪数据结合CMDB应用标签化选用应用黄金指标，增加灭火决策展示增加统一dashboard展示增加决策工作台、健康度、健康评分管理 G O P S全球运维大会2 0 2 3 ·上海站技术压力重心压力可观测指标、日志、追踪、OpenTelemetry、监控报警体系改造稳定性 HA、双活、限流熔断、灾难演练、动态扩缩、混沌工程平台化云原生以应用管理为中心CMDB关联网状，以golang语言为底建立并逐步实现SRE标准化管理能力容器K8s、服务网格、Serverless等云原生所涉及的技术栈的研究和应用标准化标准化现有运维应用业务管理、赋能自建、P4应用降本、增效、安全 02标准化改造过程底层调用架构改造前： 1、指标存储：prometheus、zabbix、nagios2、持久化指标存储：thanos3、日志存储：Elasticsearch4、日志告警：watcher、grafana-alert5、收敛告警：alertmanager6、告警通道：prometheusalert、alertmanager、zabbix、nagios 底层调用架构改造前问题： 1、指标监控存储使用多种，不便于统⼀管理2、持久化指标存储thanos不便于轻量数据接⼊、架构复杂不便于维护、使用对象存储资源长期存储成本较⾼3、日志监控采集单⼀，es日志收集较重，不便于运维日志轻量级使用4、公有云、私有云告警数据，apm告警、日志告警、指标告警需要单独配置5、没有统⼀的告警平台进⾏指标查看、规则制定、标签管理、告警管理、权限管理、故障自愈等功能可观测-监控体系组件-改造后底层调用架构改造后： 1、指标存储：prometheus2、持久化指标存储：VictoriaMetrics3、日志存储：Elasticsearch、Loki4、apm使用：skywalking、Bonree5、收敛告警：alertmanager6、告警通道：prometheusalert 底层调用架构改造后现状： 1、指标监控存储统⼀使用prometheus2、使用victoriaMetrics轻量级部署⽅案来取代thanos3、日志监控采集新增Loki，可同prometheus指标监控联动，便于运维轻量级日志使用4、汇聚收集trace、apm、log监控告警，以及公有云指标采集，便于分析统⼀告警5、新增统⼀的告警平台进⾏时序集群管理、统⼀规则管理、告警订阅、告警分发、故障自愈、事件管理、日志告警、标签管理、自监控等功能 G O P S全球运维大会2 0 2 3 ·上海站可观测-改造-采集-通用类方案 Loki类写入 Snmp类收集 G O P S全球运维大会2 0 2 3 ·上海站 1、snmp插件准备可观测-Telegraf+Loki实现硬件采集监控 2、OID节点查看取值 3、telegraf-loki对接配置可观测-改造-采集-应用日志类方案改造前-K8S日志收集过程：1、日志采集文件管理：通过黑屏脚本主机管理 2、日志需求配置管理：手工改写filebeat等收集文件3、日志K8S采集模式：采用sidecar模式创建filebeat容器进行应用日志收集，需要对每个应用的container进行资源配置可观测-改造-采集-应用日志类方案改造后-K8S日志收集：1、日志采集文件管理：通过运维后台标准化统一管理 2、日志需求配置管理：通过运维后台自动化统一生成，如有特殊日志需求通过白屏操作进行标准文件修改3、日志K8S采集模式：二开K8S功能生成DaemonSet模式采集服务，进行统一采集日志 G O P S全球运维大会2 0 2 3 ·上海站可观测-改造-采集-应用日志类方案优点： 1、标准化：改造后因通过系统后台白屏⽣成标准化采集配置⽂件，便于运维管理、应用管理修改、应用关联追踪2、自动化：改造后自动⽣成配置、自动进⾏日志采集，⽆需再在流⽔线或在K8S配置管理；同时可跟整个ELK流程进⾏接⼝对接，时间全流程自动化采集，提升运维⼯作效率3、降本：改造后因开发K8S的 DaemonSet模式管理功能，K8S日志资源使用及成本费用降低35%4、稳定性：改造后避免了之前采用sidecar模式⼤量日志容器与业务容器混在同POD⽽造成的互相影响，以及可以对磁盘空间的管理 G O P S全球运维大会2 0 2 3 ·上海站可观测-改造-监控-Thanos OR VictoriaMetrics ? 可观测-改造-监控-Thanos OR VictoriaMetrics ? 架构部署高可用方面 01 都可做为长期存储及集群解决方案vm较thanos架构较为轻量，维护成本较小写入读取数据方面总体：thanos使用S3对象存储且Thanos组件相对较多，而vm采用文件系统存储，读写架构更为简单写方面：vm支持多种数据来源，thanos相对单一读方面：新数据性能相当，都从内存和磁盘加载；但旧数据读取时，thanos需要从通过存储网关远程拉取，vm则是通过本地拉取 02 资源成本方面 03 计算资源：CPU资源相当，内存资源vm为Thanos的1/4存储资源：thanos大部分使用对象存储，相比vm使用本地存储，费用较低流量资源：thanos因为组件和存储特性，组件间同存储的网络流量较多，而vm组件较少且同本地存储，流量成本较低可观测-改造-加工-OpenTelemetry体系与企业应用CMDB相结合可观测-改造-告警-路由、模板、通道 03可观测产物可观测-数据分类及产出基础设施类-硬件、主机、网络监控指标容器、虚机、中间件、DB的CPU、Mem、磁盘IO、load、流量、PING等基本监控指标应用类-日志埋点、apm数据域名类-服务拨测监控主动探测节点UP状态、HTTPstatus code、DNS lookup时间、SSL过期时间可用性SLA 容量规划、双活决策灭火采集关健信息数据，按照业务线-业务-应用-主机标签的维度进行容量规划分析及决策灭火事件管理应用健康评分&健康度包含主机系统评分、主机网络评分、容器系统评分、服务拨测评分；按照应用标签化为pandora系统提供接口及Dashboard 按照业务线、业务、应用等标签化排列组合展示报警指标看板；按照应用标签化为pandora系统提供接口及Dashboard 可观测-产出-监控平台升级、运维能力外放可观测-产出-监控平台升级、运维能力外放可观测-产出-应用可观测看板联动应用查询可观测-产出-业务线应用健康评分可观测-产出-决策灭火图可观测-产出-决策灭火图可观测-产出-决策灭火图可观测-产出-决策灭火图 04功能持续迭代可观测-功能持续迭代 1、标签转换&添加前置2、增加oncall平台，汇总原有告警路由，新增告警升级进阶等功能3、增加基于eBPF数据的数据采集及纳入整体可观测体系可观测-前置数据标签化可观测-oncall告警分组升级 G O P S全球运维大会2 0 2 3 ·上海站可观测-eBPF数据探索 1、deepflow数据补充可观测数据，提供全局展示2、同内部CMDB结合，在deepflow数据中打业务数据属性标签3、将deepflow数据接入原有监控数据，补充告警数据及维度查询开放运维联盟高效运维社区DevOps时代荣誉出品

点击免费查看完整报告