AI智能总结
云时代的运维难题 1 目录 移动云端到端可观测体系 2 CONTENTS 3 可观测与运维生产合一 01云时代的运维难题 云时代运维难题—原因剖析 n移动云产品/应用急速发展,云化产品运维难题亟需解决。 观测对象激增 运维人员难以理解产品内核 课题:云时代亟需从面向基础设施运维转到面向应用运维 1.单体应用拆分微服务架构后,服务数量剧增;2.观测粒度细致到虚机实例、POD、容器级别,指标数量激增3.云原生应用排障及性能剖析涉及多个服务、多个组件复杂交互关系。此外,还需明细数据与指标数据等不同维度建设关系映射 1、运维人员难以理解产品架构与产生此建构的原因。 2、故障运维人员只能查询到告警、日志等报错信息,但这些信息由产品侧负责暴露,运维人员难以跳出产品暴露信息发现故障。 难题:面向应用运维存在管理对象多、乱、动态、协同难等问题。 3、定界到某一故障后,具体发生什么错误,仍需三线定位,运维人员难以了解故障跟因 组织协调困难 架构动态变化 1.伴随业务规模和复杂度提升需要对服务不断进行拆分,软件架构的变化成为常态;2.容器部署架构基于声明式面向终态的设计思想,部署资源实例变更频繁引发ip漂移,传统基于固定ip+端口的资源定位和本地数据存储方式难以适应云原生架构频繁变更。 故障涉及不同业务系统、不同技术组件、平台,故障的根因定位涉及多个业务系统开发、应用运维、平台运维、中间件运维多角色协同定位甚至于多家合 作 伙 伴难以高效协同、清晰划分故障边界,增加故障问题处理和根因分析复杂度,增加故障恢复耗时 解题:需找到打开产品/应用的钥匙 02移动云端到端可观测体系 打开产品的钥匙:建立移动云应用的可观测体系 p移动云智能运维平台打造Kunlun-Eye应用可观测产品集,为通过技术手段解剖复杂应用,引导运维人员打开产品黑盒,提供前端监控产品RUM解决用户体验无法感知问题,提供后端调用链-APM打开移动云产品服务间调用关系,连接可视化分析平台与场景化拓扑,使运维人员可深入服务中发现问题、定位问题、解决问题。 真实用户监控:KunLun-RUM pKunLun-RUM重点监控页面的加载过程和运行时状态,同时将页面加载性能、运行时异常以及API调用状态和耗时等数据,对当前线上所有真实用户的访问情况进行监控。最后通过直观的报表展示,帮助移动云及时发现并诊断问题。凝练4大核心能力与一条基准。 页面性能极其影响用户体验,而用户体验很大程度地决定了用户去留,RUM可根据地理、终端分布、页面浏览量等维度进行实时监控,360度感知用户体验 在前端监控中,即便已知API的请求耗时,也无从知晓后端服务的调用链路及性能,因而无法快速准确地排查应用API问题。前后端链路追踪功能可以解决此类问题, 链路追踪 用户体验 针对于前端问题复现困难、缺少监控信息难以深入排查问题,RUM提供多维度组合分析(JS日志,API请求,访问速度等),支持智能诊断、根因定位。 RUM将页面加载性能、运行时异常以及API调用状态和耗时等数据借助海量实时日志分析和处理服务,对当前线上所有真实用户的访问情况进行智能告警,可发现异常用户行为。 准则 保证高性能&高稳定:提供低消耗探针及高可用平台,确保监测平台稳定可用 应用监控:KunLun-APM p面对云原生时代,存在1、多语言应用架构越来越普遍,使得全链路追踪无法做到完全的能力一致;2、云产品数量多,且分布在不同的资源池,数据量巨大;3、前端后端故障无法关联分析三大核心问题,Kunlun-APM产品梳理埋点、采集(通过SDK或agent包植入,简化埋点改造代价)、计算、呈现、分析全流程,总结出三大技术特点。 链路数据跨资源池汇聚 前后端调用链联动 自研探针融合多语言、异构协议栈 在每个资源池内进行轻量数据汇聚清洗,中心侧集中查询,打破资源池隔离瓶颈,极大地节省网络带宽,保证了指标数据和Trace数据的完整性。 前端用户行为触发traceid串联前后端全量服务,前端分析用户行为,后端分析故障根因,可捕获恶意订购等异常用户行为。 03可观测与运维生产合一 可观测拓扑:基于CMDB的KunLun-云图拓扑核心能力 p需求:一、业务依赖复杂:在微服务架构下,运维人员对业务部署架构、重大流程、核心功能的理解难度上升。二、运维数据散落,无法通过这些数据很好地理解应用,现场数据无法关联。三、故障现场遗失:无法基于问题发生时数据现场的保留,确定问题发生的触发条件和根因。p思路:通过全景拓扑观测、运维数据联动、生命周期闭环三大手段,建立全景观测中枢,在不同团队和成员之间架起桥梁,提高运维效率。 全景拓扑观测 运维数据联动 生命周期闭环 横向服务链图:基于业务染色打造横向服务调用拓扑,叠加全量运维数据实现跨BU横向业务调用故障的综合研判。 整合散落在各个模块中的运维数据,包括告警数据、资源容量、性能数据、投诉数据、日志数据等,通过关联关系将其串联起来,完成端到端可观测数据的覆盖,便于运维人员快速定位问题,可视化呈现故障影响面。 提供了可回溯综合研判功能,定期记录当前资源拓扑与相关运维数据,便于故障记录与排障分析。 纵向资源拓扑图:基于CMDB的资源拓扑,叠加全量运维数据实现纵向资源可视化呈现与故障定界定位。 开放运维联盟高效运维社区DevOps时代 荣誉出品