您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 Gdevops全球敏捷运维峰会]:2-6 朱祥磊-基于数智融合构建全局业务监控实践 - 发现报告

2-6 朱祥磊-基于数智融合构建全局业务监控实践

AI智能总结
查看更多
2-6 朱祥磊-基于数智融合构建全局业务监控实践

基于数智融合构建全局业务监控实践 演讲人:朱祥磊 业务现状与背景 01 云境基础能力 云境平台构建的基础能力 云境应用场景 03 基于基础能力和数据支撑运维场景 成效和展望 04 实现高效端到端运维能力 业务现状和背景仅供学习 系统复杂度提升,传统监控手段捉襟见肘 伴随若山东移动微服务化,云原生化的推动,整体系统复杂度提升,基础设施变成了一个黑盒,服务调用和依赖关系也越来越复杂,云原生的架构对山东移动传统架构提出两大挑战:一是定位难,系统出现告警后,很难定位到根因;二是解决难,问题出现后很难发现,解决过程变得史长。 01 基确设施层更加黑盒 随着应用向云原生架构演进,容器,微服务等云原生技术得到广泛应用,开发团队开始更加注重业务逻辑,无需关心基础设施的细节,然后,这导致开发团队和运维团队对基础设施关注度降低,基础设施变得更加难以理解和擎掌控。 服务调用和依赖关系更加复杂 云原生化之后系统服务数量开始增加,应用之间的调用再也不是单一服务对单一服务,拓扑调用和恢赖关系变得越来越复杂,链路也越来越长,导致开发和运维难以全面把握系统的整体状况,阻碍了对系统的整体了解。 云原生带来的观测种类变化,对监控提出更高的要求 在经历云原生化后的山东移动,监控对象从小机,服务器、存储、虚拟化变为服务器、存储、虚拟机,容器。同时随若数字化转型,手机端,PC端,智能终端也导致监控对象增多。这一系列变化代表若我们对于系统监控范围正在急速扩大,要求也在逐步的提高。bap 用户体验带来的稳定性挑战 数字化时代用户大量使用1T来解决问题,基于用户体验的2-5-8原则,加载时间每多1秒,就会流失7的用户,加载卡顿或者显示错误的高频次发生,极大影响业务的发展和客户体验,因此需要进一步保障系统的稳定性,提升客户满意度, Gdevops全球敏捷运维峰会北京站 云境基础能力仅供学习不 基于业务端到端可观测性方案整体建设思路 根据现阶股存在的问题,构相应的应当措施。整体思路如下: 对现有的Skywalkirng,Dynatrace,Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地展示效果。 拉通metric,log,tracing(对应cmdb监控,日志,调用链等)三类数据,提供对laas,Paas,Saas层横向端到端,纵向端到端以及以业务为视角聚焦串联laas,Paas,Saas三层关系的业务端到端运维能力,3.结合能力(根因定位,异常检测),提供实时业务调用拓扑,助力故障定位,根固分析等智慧运维场景: 业务端到端可观测性方案功能架构(云境) 新业务端到端可观测性平台(云境)主体由数据源采集,数据整合加工,可观测性场景三部分构成,智能中心和操作中心作为共享对接能力以开放接口的方式对其提供AI算法和操作执行手段, 数据整合加工:通过数据解析,数据洁洗,数据降噪,关联等方式完成数据处理,将数据提供给端到端可观察性应用场景进行运用: ■可观测性场录:场景作为业务端到端运维的实体业务对象,主要关注重点业务端到端场:故障定位,性能优化,架构治理等。 1、全局端到端采集管控能力 云境平台通过统一的运维管控中心对山东移动现有技术栈提供统一的运维采集和管控能力,提供向导式接入管理能力,简单实现IT资源指标、调用链、日志类型数据采集,支持SNMP、脚本,Agent,Kafka等多种方式进行全栈IT资源监控及端到端数据采集,为运维保障,分析与运维数字化提供完整的数据接入支撑, 2、可观测性数据分析流批处理引擎 提供可视化、拖持式自助开发与分析能力,统一了数据开发流程与项目固期管理,支择数据清洗、转换、加工、标记、关系挖据、主/专题分析:要盖了包措文件,激据库,消息以列,搜索引擎,大数据平台,内存等多种数据源;在架构设计上更是兼客了Flinksparki分布式服务等流处理运行拒架,并允许用户通过插件的方式扩展新的数据处理,分析能力, 数据全面覆盖:支持对各类的可现测效据(netric,log,trace)以及支持从现有Skywalking,Dynatrace,Xtrace,Pranetheus工具采集效据 秒级计第:新业务端到端可观测性平台(云镜》将支持分布式,可扩,使用FIin小流式处理能力,针对海量数据量实现移级指标,告警计算能力: 灵活智能的算法:除了基础的算法外,还应包括05相关的异常检测,预测类的算法,并且通过少量或无代码的方式进行算法生成 Gdevops全球敏捷运维峰会北京站 3、全景可观测性分析能力 统一监控:实现山东移动从底层动环到上层业务的全资源端到端监控,并整合业务数据,应用性能效数据,运行效据,资产效据等多方位效据,构建全方位,立体化可现测性能力, 实时感知:通过指标、调用链、日志、持续分析、告警、资产关联关系等多维座数据综合分折,实时感知效据异常。 智能分析能力:田绕业务构建快向拓扑和纵向依较关系拓扑等多维拓扑能力,联动多种监控数据,丰富可观测性和故障根固分析路径,助力故障根因定位。 4,基于数据分析和智能分析的故障定位能力 故障定位 基于AI算法+数据融合分折,对故障进行快这识别,快这定位,并关联知识库对故障推荐相关解决方案,依托“AI“+“人工”的方式决策是否是直接自离,如果可采用直接自离,调用智能调度平台的能力对故障进行恢复操作, 数据分析:依托cwDB中资产对象关联关系,将现网相关的metrie,log,trace数据拉通,使用平台对三类可观利数据的进行关联,并使用cwDB对资源之间的关联关系进行展示,监控效据与资源数据进行关联,快速定位和解决问题 智能分析:对海量实体指标的智能异常检测,进行智能告警,同事支持通过智能化地分析和挖据非结构化文本日志,自动发现异常 数据关联分析 Gdevops全球敏捷运维峰会北京站 5、运维敏捷能力 低代码可视化中心,通过整合现有各平台运维能力,开放运维基础能力,面向运维人员及开发人员,提供个性场景快速构建能力,通过统一平台+低代码开发者中心,实现统一平台建设+场示百花齐放的新型统一运维管理能力。 6、混沌演练:系统架构反脆弱测试 构建混沌演练平台,为业务系统提供灵活,易用,安全的故障演练能力,致力帮助业务系统在可控范围有保护的进行混实验,观察系统在各种压力下的行为表现,及时发现业务潜在风险,验证高可用预案有效性,从而提高其业务及系统的可用性和韧性。 持续的稳定性验证与跟踪改进 快速构建可控可靠的实验场录 日前我们构连的场景通盖从基出瞳件资,网路设备,系统及中间件、应用腰务,用户幅作等禁型的故障注入动作及对妞的家全保障精版,谢过开回快速员活的可视可轻的实拍巧货: 通过湿注实验,跟踪观测、提告分析等能力,持编验证,持续改进来统聘定 7,融合AIOPs算法即服务能力 依据山东移动实际情况,围绕主机,数据库,业务,客器,微服务等五类核心资源,针对异常检测,故障诊断,故障预测,故障自意等四类AI0ps场景,通过混沌工程随机注入故障的方式来测试应用效果。 使用AIOps算法服务能力,将需要分析的日志和指标同步给AIOp5平台,通过算法分析后,接收对应资源的异常信息,综合全业务链路数据对故障进行定界定位。 云境应用场景仅供学习不 应用场景1:全局监控告警管理 通过对采集的监控指标进行实时知,构建告警和事件通知的能力,包括基于阅值的告普和无闽值的异常检测,同时我们基于统一告警模块提供灵活的告警生成,处理,推送策略,适应各种业务告警场景, 阅值告警策略 .OP°无阐值告警 告警策略以模型为单位进行设置,单个模型下可设置多条监控策略。每条监控策略包含监控对象,监控指标,告警规则。 利用机器学习,对历史效据进行学习,分析指标基线,借助箱型法,极值法、mad、gdf、ecf等算法可实时、准肺地别定指标的状态是否异常,实现指标的异常检别,最终达到无阔值告警的目的, *所有资源对象*指定资源对象或资源类型*支持关联上下游告警资源●可对单个资源创建多个不同优先级的告警策略,单个告警策略可覆盖多个资源和指标 支持有监督的专家经验的指标异常检测,同时也支持以应用链路及终链路关系为基础的无监替的多指标异常检测 Gdevops全球敏捷运维峰会北京站 应用场景2:健康度打分 注康度分析利用算法对指标数据和告警数据进行自动化打分,从Iaas层,Paas层,Saas层三个层面,对业务系统和技术组件采集上来的数据进行打分,通过键康度实时感知计算栈异常,以蜂窝状的形式展示,让运维人员可以一目了然的知道是用个组性有异常,从而快这定位处理 健康度打分规则分为两个层面,一是基于资源健康度打分,通过对资源数据的实时感知,并根据每种技术栈的特点选定个性化的算法,进行键康度打分;二是对汇总资源健康度打分,通过下层资源的汇总,对不同层级(业务,应用系统等)技术栈的优先级记性加权从而计算上层的健康度。通过两个层级的健康度打分,得到全业务域的佳康度, 资源健康度打分规则 以应用系统健康度打分规则 通过汇总下级资源的健康度和告警数据,以及应用系统设定的四大黄金拍标(请求时长,错误率,请求数,流量)进行综合分析判断得到应用系统康度,并支持下钻查看整个应用技术栈情况 通过对资源效据的实时感知和历史数据分析,对每类资源类型设定不同的算法和指标,从而得到其资源的健康度;以主机为例,通过对主机的CPU,负载,IO三个要素单独进行打分,总分为取一个最低分 应用场景3:面向业务的服务地图及服务上下游分析 通过将服务调用链聚合,拆解融合eBPF旁路抓取内核的CPU,内存,网络,硬盘信息,实时绘制观察到服务,服务与实例,实例与pod、Pod与宿主机之间的依赖养系,可以识别瓶颈并了解业务正的服务流向,架构及部署架构,基于全新的服务地图可以衍生服务上下游依赖,服务全景排障等能力:通过对服务地图做定期快照,对比不同时期的质量,发现并优化一些异常调用,以及优化架构中不合理的部分。 +利用调用链教据流向,分析服务的上游和下游,通过左(服务上游)右(服务下游)的呈现方式展示出来,对于节点中有故障的点用不同的熟色进行标识,*通过分析服务上下游依赖关系,流量,强弱等效括,理清主要服务与次要服务,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累效据持续推进系统稳定性提升。 ■链路节点可下钻分析其侬赖的对象的远行状况,也可展开具部署实例的健康状态●服务地图中不同就色展示链路各节点的健康状态,健康状态通过健康度打分规则(请求量,Apdex,错误率)进行计算分析得出 Gdevops全球敏捷运维峰会北京站 应用场景4:全链路业务真实部署拓扑 通过对应用链路,网络链路,立体链路进行数据采集,分析折实现“自发现”三层链路的能力,并将格式化的链路数据送至CHDB进行展示,最终利用CHDB展示全链路业务真实部吾拓扑,认向拉逆整个系统的上下依赖关系(例如服务运行的主机,主机运行的虚拟机)在部署拓扑中每个节点的健忠度状态快速定位某个节点问题,并支持在部署拓扑上将节点的Metrics,Trace,Lo哆、资产,告警等数据进行统一展示,方使在发现健康度异常之后,快速查看这一资源的相关数据进行问题定位, 应用场景5:全栈式服务调用链场景研究 基于Trackops实现前后指标延伸(请求响应,耗时,可用性),提前发现变慢原因,精准辨识业务受理流程合理性,为业务办理效率提供度量标准和分析依据,系统优化有了方向,营业员体验可视可管, 实施效果 问题快速定界 一点查询调用链记录和报铝信息,大幅提升定位速座 提升营业员体验 营业员体验可视,优化有方向,可度量 打点逻辑:UEE框架打点,上报逻辑异步化,JS空用期发送,避免网路资源征用 持续检测改进 产品360链康座监控,不仅仅是交付,更要产品的持续治理 扩容分析更轻松 系统堵点一目了然,性能优化精准实施 应用场景6:特定技术栈大盘