行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

朱祥磊-云原生时代全局业务端到端监控平台实战

信息技术 2023-10-08 2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会李鑫

山东移动云境平台全局业务端到端监控研究和实践

1. 业务现状与背景

系统复杂度提升：微服务化、云原生化导致系统复杂度增加，服务调用和依赖关系更加复杂。
基础设施黑盒化：云原生技术的应用使得基础设施更加黑盒化，开发团队和运维团队对基础设施的关注度降低。
监控对象变化：从物理机、虚拟化转向云服务器、容器，监控范围扩大。

2. 云境基础能力

端到端可观测性：通过整合Skywalking、Dynatrace、Xtrace等工具，提供端到端的可视化监控能力。
数据融合：结合metric、log、tracing数据，提供IaaS、PaaS、SaaS层的端到端运维能力。
AI赋能：利用AI进行故障预测、异常检测、根因分析等，提升运维智慧化水平。

3. 云境应用场景

全局监控告警管理：通过阈值和无阈值告警策略，实现灵活的告警管理。
健康度打分：利用算法对IaaS、PaaS、SaaS层进行健康度打分，快速定位问题。
服务地图及上下游分析：通过服务调用链聚合，识别服务间的依赖关系，优化架构。
全链路业务真实部署拓扑：实现应用链路、网络链路、立体链路的数据采集和分析，展示全链路业务部署拓扑。
端到端可观测：通过跨系统调用链分析，快速定位故障原因，并提供自愈预案。
特定技术栈大盘：基于低代码中心构建不同技术栈的监控大盘，满足不同专业组的需求。

4. 成效

提升了系统稳定性，实现了高效的端到端运维能力。
支持快速故障定位和根因分析，提高了运维效率。
实现了智能化运维，提升了整体系统稳定性。

通过上述内容，山东移动成功应对了云原生化带来的挑战，构建了完善的端到端监控体系，显著提升了系统稳定性和运维效率。

朱祥磊山东移动高级专家具备20+年的IT相关工作经验，曾获“山东省创新能手”、“最美移动人”、“中国移动工匠”、“中国移动科技标兵”等称号，在IT系统架构规划、业务连续性保障、自动化智能化运维、云计算、大数据等方面具备丰富的经验。业务现状与背景山东移动云转型后运维面临的挑战 01 云境基础能力云境平台构建的基础能力目录Content 02 云境应用场景 03 基于基础能力和数据支撑运维场景成效 04 实现高效端到端运维能力 01 业务现状和背景系统复杂度提升，传统监控手段捉襟见肘伴随着山东移动微服务化、云原生化的推动，整体系统复杂度提升，基础设施变成了一个黑盒，服务调用和依赖关系也越来越复杂。云原生的架构对山东移动传统架构提出两大挑战：一是定位难，系统出现告警后，很难定位到根因；二是解决难，问题出现后很难发现，解决过程变得更长。 01 基础设施层更加黑盒随着应用向云原生架构演进，容器、微服务等云原生技术得到广泛应用，开发团队开始更加注重业务逻辑，无需关心基础设施的细节。然后，这导致开发团队和运维团队对基础设施关注度降低，基础设施变得更加难以理解和掌控。服务调用和依赖关系更加复杂云原生化之后系统服务数量开始增加，应用之间的调用再也不是单一服务对单一服务，拓扑调用和依赖关系变得越来越复杂，链路也越来越长。导致开发和运维难以全面把握系统的整体状况，阻碍了对系统的整体了解。云原生带来的观测种类变化，对监控提出更高的要求在经历云原生化后的山东移动，监控对象从小机、服务器、存储、虚拟化变为服务器、存储、虚拟机、容器。同时随着数字化转型，手机端、PC端、智能终端也导致监控对象增多。这一系列变化代表着我们对于系统监控范围正在急速扩大，要求也在逐步的提高。 DevOps对业务稳定性带来的冲击敏捷开发、DevOps、BizDevOps、DevSecOps等开发运维理念的涌现和转变，持续集成、持续部署等工作流和工具结合，缩短发布周期，做到核心系统不停机发版。随之带来的各类依赖关系和代码追踪的问题，开发者和运维人员对系统掌控度的可观测性，成为保障系统稳定性的重要因素。迭代周期迅速缩短敏捷开发、DevOps、BizDevOps、DevSecOps等一系列技术理念的广泛推广下，山东移动软件迭代周期由XX天缩短到了X天，且要求开发人员可以随时随地的发版本。这也导致对系统稳定性提出更大的挑战。用户体验带来的稳定性挑战数字化时代用户大量使用IT来解决问题，基于用户体验的2-5-8原则，加载时间每多1秒，就会流失7%的用户，加载卡顿或者显示错误的高频次发生，极大影响业务的发展和客户体验，因此需要进一步保障系统的稳定性，提升客户满意度。客户中断此次使用行为或使用其他同类型产品代替云境基础能力基于业务端到端可观测性方案整体建设思路根据现阶段存在的问题，构建相应的应当措施。整体思路如下： 1.对现有的Skywalking、Dynatrace、Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力，提升业务端到端监控能力的易用性和落地展示效果。 2.拉通metric、log、tracing（对应cmdb监控、日志、调用链等）三类数据，提供对Iaas、Paas、Saas层横向端到端、纵向端到端以及以业务为视角聚焦串联Iaas、Paas、Saas三层关系的业务端到端运维能力。3.结合AI能力（根因定位、异常检测），提供实时业务调用拓扑，助力故障定位、根因分析等智慧运维场景。业务端到端可观测性方案功能架构（云境）新业务端到端可观测性平台（云境）主体由数据源采集、数据整合加工、可观测性场景三部分构成，智能中心和操作中心作为共享对接能力以开放接口的方式对其提供AI算法和操作执行手段。 n数据整合加工：通过数据解析、数据清洗、数据降噪、关联等方式完成数据处理，将数据提供给端到端可观察性应用场景进行运用； n可观测性场景：场景作为业务端到端运维的实体业务对象，主要关注重点业务端到端场景：故障定位、性能优化、架构治理等。 1、全局端到端采集管控能力云境平台通过统一的运维管控中心对山东移动现有技术栈提供统一的运维采集和管控能力，提供向导式接入管理能力，简单实现IT资源指标、调用链、日志类型数据采集，支持SNMP、脚本、Agent、Kafka等多种方式进行全栈IT资源监控及端到端数据采集，为运维保障、分析与运维数字化提供完整的数据接入支撑。 2、可观测性数据分析流批处理引擎提供可视化、拖拽式自助开发与分析能力，统一了数据开发流程与项目周期管理，支撑数据清冼、转换、加工、标记、关系挖掘、主/专题分析；覆盖了包括文件、数据库、消息队列、搜索引擎、大数据平台、内存等多种数据源；在架构设计上更是兼容了Flink\Spark\分布式服务等流处理运行框架，并允许用户通过插件的方式扩展新的数据处理、分析能力。 n数据全面覆盖：支持对各类的可观测数据（metric、log、trace）以及支持从现有Skywalking、Dynatrace、Xtrace、Prometheus工具采集数据 n灵活智能的算法：除了基础的算法外，还应包括AIOps相关的异常检测、预测类的算法，并且通过少量或无代码的方式进行算法生成 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 3、全景可观测性分析能力 Ø统一监控：实现山东移动从底层动环到上层业务的全资源端到端监控，并整合业务数据、应用性能数据、运行数据、资产数据等多方位数据，构建全方位、立体化可观测性能力。 Ø实时感知：通过指标、调用链、日志、持续分析、告警、资产关联关系等多维度数据综合分析，实时感知数据异常。 Ø智能分析能力：围绕业务构建横向拓扑和纵向依赖关系拓扑等多维拓扑能力，联动多种监控数据，丰富可观测性和故障根因分析路径，助力故障根因定位。 4、基于数据分析和智能分析的故障定位能力故障定位基于AI算法+数据融合分析，对故障进行快速识别、快速定位，并关联知识库对故障推荐相关解决方案，依托“AI“+“人工”的方式决策是否是直接自愈，如果可采用直接自愈，调用智能调度平台的能力对故障进行恢复操作。 n数据分析：依托CMDB中资产对象关联关系，将现网相关的metric、log、trace数据拉通，使用平台对三类可观测数据的进行关联，并使用CMDB对资源之间的关联关系进行展示，监控数据与资源数据进行关联，快速定位和解决问题 n智能分析：对海量实体指标的智能异常检测，进行智能告警，同事支持通过智能化地分析和挖掘非结构化文本日志，自动发现异常 1.各种运维小工具关联（如线程分析、重起、刷缓存等）2.应急操作关联（如切容灾、切平面等） 5、运维调度编排能力丰富的调度类型运维脚本：支持shell、python、perl、SQL、bat、powershell等脚本类型并支持扩展；开源框架：支持Ansible、SQLPlus、Terraform、Jenkins、Nexus等开源运维框架及工具；对接扩展：支持云平台、监控、日志、cmdb、工单及其他运维管理平台API扩展；满足复杂调度逻辑分布式扩展&调度管控调度策略：支持串并行、条件分支、循环、等待/定时、流程嵌套等流程流转逻辑。分布式横向扩展能力：分布式架构支持横向扩展，无单点风险。启动管理：支持人工、周期/定时、子流程嵌套等调度启动方式，提供外部API和数据交互方案。流程监控/人工介入：支持执行过程可视化监控，提供异常告警和代办任务通知功能及人工介入手段。人机协同：支持在流程任何位置插入人工介入节点，提供阶段确认和流程决策方案。执行策略：并发控制和分批执行策略 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 6、运维敏捷能力低代码可视化中心，通过整合现有各平台运维能力，开放运维基础能力，面向运维人员及开发人员，提供个性场景快速构建能力，通过统一平台+低代码开发者中心，实现统一平台建设+场景百花齐放的新型统一运维管理能力。 7、混沌演练：系统架构反脆弱测试 Ø构建混沌演练平台，为业务系统提供灵活、易用、安全的故障演练能力，致力帮助业务系统在可控范围有保护的进行混沌实验，观察系统在各种压力下的行为表现，及时发现业务潜在风险、验证高可用预案有效性，从而提高其业务及系统的可用性和韧性。持续的稳定性验证与跟踪改进快速构建可控可靠的实验场景目前我们构建的场景涵盖从基础硬件资源、网络设备、系统及中间件、应用服务、用户操作等类型的故障注入动作及对应的安全保障措施，通过界面快速灵活的编排可视可控的实验场景。通过混沌实验、跟踪观测、报告分析等能力，持续验证、持续改进系统稳定性。 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 8、融合AIOps算法即服务能力 Ø依据山东移动实际情况，围绕主机、数据库、业务、容器、微服务等五类核心资源，针对异常检测、故障诊断、故障预测、故障自愈等四类AIOps场景，通过混沌工程随机注入故障的方式来测试应用效果。 Ø使用AIOps算法服务能力，将需要分析的日志和指标同步给AIOps平台，通过算法分析后，接收对应资源的异常信息，综合全业务链路数据对故障进行定界定位。 8、融合AIOps算法即服务能力-无代码配置 Ø研发建立低代码Aiops应用构建流水线，图形化应用装配生成器，具备快速构建自动化Aiops应用场景能力。 Ø数据采集支持多种类型：Kafka、API、TCP/UDP、Syslog、数据库、文件，通过界面进行简单配置即可，方便运维人员操作。 Ø通过界面操作配置算法参数，通过拖拉拽方式实现多算法的流程配置。 Ø日志指标分析通过界面配置操作，报表自定义； 03 云境应用场景应用场景1：全局监控告警管理通过对采集的监控指标进行实时感知，构建告警和事件通知的能力，包括基于阈值的告警和无阈值的异常检测，同时我们基于统一告警模块提供灵活的告警生成、处理、推送策略，适应各种业务告警场景。阈值告警策略无阈值告警告警策略以模型为单位进行设置，单个模型下可设置多条监控策略。每条监控策略包含监控对象、监控指标、告警规则。利用机器学习，对历史数据进行学习，分析指标基线，借助箱型法、极值法、mad、adf、acf等算法可实时、准确地判定指标的状态是否异常，实现指标的异常检测，最终达到无阈值告警的目的。 l所有资源对象l指定资源对象或资源类型l支持关联上下游告警资源l可对单个资源创建多个不同优先级的告警策略l单个告警策略可覆盖多个资源和指标支持有监督的专家经验的指标异常检测，同时也支持以应用链路及网络链路关系为基础的无监督的多指标异常检测 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站应用场景2：健康度打分 Ø健康度分析利用算法对指标数据和告警数据进行自动化打分，从IaaS层，PaaS层，SaaS层三个层面，对业务系统和技术组件采集上来的数据进行打分，通过健康度实时感知计算栈异常，以蜂窝状的形式展示，让运维人员可以一目了然的知道是哪个组件有异常，从而快速定位处理。 Ø健康度打分规则分为两个层面，一是基于资源健康度打分，通过对资源数据的实时感知，并根据每种技术栈的特点选定个性化的算法，进行健康度打分；二是对汇总资源健康度打分，通过下层资源的汇总，对不同层级（业务、应用系统等）技术栈的优先级记性加权从而计算上层的健康度。通过两个层级的健康度打分，得到全业务域的健康度。资源健康度打分规则应用系统健康度打分规则通过对资源数据的实时感知和历史数据分析，对每类资源类

点击免费查看完整报告

朱祥磊-云原生时代全局业务端到端监控平台实战

山东移动云境平台全局业务端到端监控研究和实践

1. 业务现状与背景

2. 云境基础能力

3. 云境应用场景

4. 成效

你可能感兴趣

2-6 朱祥磊-基于数智融合构建全局业务监控实践

步入数字化转型深水区，云原生业务稳定性如何保障-朱剑峰

吕祥坤-从混部到Serverless 化，腾讯自研业务云原生成本优化实践

云原生平台时代已然来临——介绍基于 Ampere Altra Max CPU 的 Ampere Mt. Jade 参考平台

基于FinOps的端到端云原生资源效能解决方案 Crane--田奇

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

云原生时代如何实现真正的业务可观测-华明

运营商及国际业务快速增长，云智原生数字平台持续升级

2023云原生实战指南-以应用为中心构建数字化转型最短路径

云上增长实战指南第二卷:SaaS架构从云托管到云原生的深度演进

朱祥磊-云原生时代全局业务端到端监控平台实战

你可能感兴趣

2-6 朱祥磊-基于数智融合构建全局业务监控实践

步入数字化转型深水区，云原生业务稳定性如何保障-朱剑峰

吕祥坤-从混部到Serverless 化，腾讯自研业务云原生成本优化实践

云原生平台时代已然来临——介绍基于 Ampere Altra Max CPU 的 Ampere Mt. Jade 参考平台

基于FinOps的端到端云原生资源效能解决方案 Crane--田奇

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

云原生时代如何实现真正的业务可观测-华明

运营商及国际业务快速增长，云智原生数字平台持续升级

2023云原生实战指南-以应用为中心构建数字化转型最短路径

云上增长实战指南 第二卷:SaaS架构 从云托管到云原生的深度演进

云上增长实战指南第二卷:SaaS架构从云托管到云原生的深度演进