AI智能总结
朱祥磊山东移动高级专家 具备20+年的IT相关工作经验,曾获“山东省创新能手”、“最美移动人”、“中国移动工匠”、“中国移动科技标兵”等称号,在IT系统架构规划、业务连续性保障、自动化智能化运维、云计算、大数据等方面具备丰富的经验。 业务现状与背景山东移动云转型后运维面临的挑战 01 云境基础能力 云境平台构建的基础能力 目录Content 02 云境应用场景 03 基于基础能力和数据支撑运维场景 成效 04 实现高效端到端运维能力 01 业务现状和背景 系统复杂度提升,传统监控手段捉襟见肘 伴随着山东移动微服务化、云原生化的推动,整体系统复杂度提升,基础设施变成了一个黑盒,服务调用和依赖关系也越来越复杂。云原生的架构对山东移动传统架构提出两大挑战:一是定位难,系统出现告警后,很难定位到根因;二是解决难,问题出现后很难发现,解决过程变得更长。 01 基础设施层更加黑盒 随着应用向云原生架构演进,容器、微服务等云原生技术得到广泛应用,开发团队开始更加注重业务逻辑,无需关心基础设施的细节。然后,这导致开发团队和运维团队对基础设施关注度降低,基础设施变得更加难以理解和掌控。 服务调用和依赖关系更加复杂 云原生化之后系统服务数量开始增加,应用之间的调用再也不是单一服务对单一服务,拓扑调用和依赖关系变得越来越复杂,链路也越来越长。导致开发和运维难以全面把握系统的整体状况,阻碍了对系统的整体了解。 云原生带来的观测种类变化,对监控提出更高的要求 在经历云原生化后的山东移动,监控对象从小机、服务器、存储、虚拟化变为服务器、存储、虚拟机、容器。同时随着数字化转型,手机端、PC端、智能终端也导致监控对象增多。这一系列变化代表着我们对于系统监控范围正在急速扩大,要求也在逐步的提高。 DevOps对业务稳定性带来的冲击 敏捷开发、DevOps、BizDevOps、DevSecOps等开发运维理念的涌现和转变,持续集成、持续部署等工作流和工具结合,缩短发布周期,做到核心系统不停机发版。随之带来的各类依赖关系和代码追踪的问题,开发者和运维人员对系统掌控度的可观测性,成为保障系统稳定性的重要因素。 迭代周期迅速缩短 敏捷开发、DevOps、BizDevOps、DevSecOps等一系列技术理念的广泛推广下,山东移动软件迭代周期由XX天缩短到了X天,且要求开发人员可以随时随地的发版本。这也导致对系统稳定性提出更大的挑战。 用户体验带来的稳定性挑战 数字化时代用户大量使用IT来解决问题,基于用户体验的2-5-8原则,加载时间每多1秒,就会流失7%的用户,加载卡顿或者显示错误的高频次发生,极大影响业务的发展和客户体验,因此需要进一步保障系统的稳定性,提升客户满意度。 客户中断此次使用行为或使用其他同类型产品代替 云境基础能力 基于业务端到端可观测性方案整体建设思路 根据现阶段存在的问题,构建相应的应当措施。整体思路如下: 1.对现有的Skywalking、Dynatrace、Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地展示效果。 2.拉通metric、log、tracing(对应cmdb监控、日志、调用链等)三类数据,提供对Iaas、Paas、Saas层横向端到端、纵向端到端以及以业务为视角聚焦串联Iaas、Paas、Saas三层关系的业务端到端运维能力。3.结合AI能力(根因定位、异常检测),提供实时业务调用拓扑,助力故障定位、根因分析等智慧运维场景。 业务端到端可观测性方案功能架构(云境) 新业务端到端可观测性平台(云境)主体由数据源采集、数据整合加工、可观测性场景三部分构成,智能中心和操作中心作为共享对接能力以开放接口的方式对其提供AI算法和操作执行手段。 n数据整合加工:通过数据解析、数据清洗、数据降噪、关联等方式完成数据处理,将数据提供给端到端可观察性应用场景进行运用; n可观测性场景:场景作为业务端到端运维的实体业务对象,主要关注重点业务端到端场景:故障定位、性能优化、架构治理等。 1、全局端到端采集管控能力 云境平台通过统一的运维管控中心对山东移动现有技术栈提供统一的运维采集和管控能力,提供向导式接入管理能力,简单实现IT资源指标、调用链、日志类型数据采集,支持SNMP、脚本、Agent、Kafka等多种方式进行全栈IT资源监控及端到端数据采集,为运维保障、分析与运维数字化提供完整的数据接入支撑。 2、可观测性数据分析流批处理引擎 提供可视化、拖拽式自助开发与分析能力,统一了数据开发流程与项目周期管理,支撑数据清冼、转换、加工、标记、关系挖掘、主/专题分析;覆盖了包括文件、数据库、消息队列、搜索引擎、大数据平台、内存等多种数据源;在架构设计上更是兼容了Flink\Spark\分布式服务等流处理运行框架,并允许用户通过插件的方式扩展新的数据处理、分析能力。 n数据全面覆盖:支持对各类的可观测数据(metric、log、trace)以及支持从现有Skywalking、Dynatrace、Xtrace、Prometheus工具采集数据 n灵活智能的算法:除了基础的算法外,还应包括AIOps相关的异常检测、预测类的算法,并且通过少量或无代码的方式进行算法生成 2 0 2 3 D e v O p s国 际 峰 会暨B i z D e v O p s企 业 峰 会·北 京 站 3、全景可观测性分析能力 Ø统一监控:实现山东移动从底层动环到上层业务的全资源端到端监控,并整合业务数据、应用性能数据、运行数据、资产数据等多方位数据,构建全方位、立体化可观测性能力。 Ø实时感知:通过指标、调用链、日志、持续分析、告警、资产关联关系等多维度数据综合分析,实时感知数据异常。 Ø智能分析能力:围绕业务构建横向拓扑和纵向依赖关系拓扑等多维拓扑能力,联动多种监控数据,丰富可观测性和故障根因分析路径,助力故障根因定位。 4、基于数据分析和智能分析的故障定位能力 故障定位 基于AI算法+数据融合分析,对故障进行快速识别、快速定位,并关联知识库对故障推荐相关解决方案,依托“AI“+“人工”的方式决策是否是直接自愈,如果可采用直接自愈,调用智能调度平台的能力对故障进行恢复操作。 n数据分析:依托CMDB中资产对象关联关系,将现网相关的metric、log、trace数据拉通,使用平台对三类可观测数据的进行关联,并使用CMDB对资源之间的关联关系进行展示,监控数据与资源数据进行关联,快速定位和解决问题 n智能分析:对海量实体指标的智能异常检测,进行智能告警,同事支持通过智能化地分析和挖掘非结构化文本日志,自动发现异常 1.各种运维小工具关联(如线程分析、重起、刷缓存等)2.应急操作关联(如切容灾、切平面等) 5、运维调度编排能力 丰富的调度类型 运维脚本:支持shell、python、perl、SQL、bat、powershell等脚本类型并支持扩展; 开源框架:支持Ansible、SQLPlus、Terraform、Jenkins、Nexus等开源运维框架及工具; 对接扩展:支持云平台、监控、日志、cmdb、工单及其他运维管理平台API扩展; 满足复杂调度逻辑 分布式扩展&调度管控 调度策略:支持串并行、条件分支、循环、等待/定时、流程嵌套等流程流转逻辑。 分布式横向扩展能力:分布式架构支持横向扩展,无单点风险。启动管理:支持人工、周期/定时、子流程嵌套等调度启动方式,提供外部API和数据交互方案。流程监控/人工介入:支持执行过程可视化监控,提供异常告警和代办任务通知功能及人工介入手段。 人机协同:支持在流程任何位置插入人工介入节点,提供阶段确认和流程决策方案。 执行策略:并发控制和分批执行策略 2 0 2 3 D e v O p s国 际 峰 会暨B i z D e v O p s企 业 峰 会·北 京 站 6、运维敏捷能力 低代码可视化中心,通过整合现有各平台运维能力,开放运维基础能力,面向运维人员及开发人员,提供个性场景快速构建能力,通过统一平台+低代码开发者中心,实现统一平台建设+场景百花齐放的新型统一运维管理能力。 7、混沌演练:系统架构反脆弱测试 Ø构建混沌演练平台,为业务系统提供灵活、易用、安全的故障演练能力,致力帮助业务系统在可控范围有保护的进行混沌实验,观察系统在各种压力下的行为表现,及时发现业务潜在风险、验证高可用预案有效性,从而提高其业务及系统的可用性和韧性。 持续的稳定性验证与跟踪改进 快速构建可控可靠的实验场景 目前我们构建的场景涵盖从基础硬件资源、网络设备、系统及中间件、应用服务、用户操作等类型的故障注入动作及对应的安全保障措施,通过界面快速灵活的编排可视可控的实验场景。 通过混沌实验、跟踪观测、报告分析等能力,持续验证、持续改进系统稳定性。 2 0 2 3 D e v O p s国 际 峰 会暨B i z D e v O p s企 业 峰 会·北 京 站 8、融合AIOps算法即服务能力 Ø依据山东移动实际情况,围绕主机、数据库、业务、容器、微服务等五类核心资源,针对异常检测、故障诊断、故障预测、故障自愈等四类AIOps场景,通过混沌工程随机注入故障的方式来测试应用效果。 Ø使用AIOps算法服务能力,将需要分析的日志和指标同步给AIOps平台,通过算法分析后,接收对应资源的异常信息,综合全业务链路数据对故障进行定界定位。 8、融合AIOps算法即服务能力-无代码配置 Ø研发建立低代码Aiops应用构建流水线,图形化应用装配生成器,具备快速构建自动化Aiops应用场景能力。 Ø数据采集支持多种类型:Kafka、API、TCP/UDP、Syslog、数据库、文件,通过界面进行简单配置即可,方便运维人员操作。 Ø通过界面操作配置算法参数,通过拖拉拽方式实现多算法的流程配置。 Ø日志指标分析通过界面配置操作,报表自定义; 03 云境应用场景 应用场景1:全局监控告警管理 通过对采集的监控指标进行实时感知,构建告警和事件通知的能力,包括基于阈值的告警和无阈值的异常检测,同时我们基于统一告警模块提供灵活的告警生成、处理、推送策略,适应各种业务告警场景。 阈值告警策略 无阈值告警 告警策略以模型为单位进行设置,单个模型下可设置多条监控策略。每条监控策略包含监控对象、监控指标、告警规则。 利用机器学习,对历史数据进行学习,分析指标基线,借助箱型法、极值法、mad、adf、acf等算法可实时、准确地判定指标的状态是否异常,实现指标的异常检测,最终达到无阈值告警的目的。 l所有资源对象l指定资源对象或资源类型l支持关联上下游告警资源l可对单个资源创建多个不同优先级的告警策略l单个告警策略可覆盖多个资源和指标 支持有监督的专家经验的指标异常检测,同时也支持以应用链路及网络链路关系为基础的无监督的多指标异常检测 2 0 2 3 D e v O p s国 际 峰 会暨B i z D e v O p s企 业 峰 会·北 京 站 应用场景2:健康度打分 Ø健康度分析利用算法对指标数据和告警数据进行自动化打分,从IaaS层,PaaS层,SaaS层三个层面,对业务系统和技术组件采集上来的数据进行打分,通过健康度实时感知计算栈异常,以蜂窝状的形式展示,让运维人员可以一目了然的知道是哪个组件有异常,从而快速定位处理。 Ø健康度打分规则分为两个层面,一是基于资源健康度打分,通过对资源数据的实时感知,并根据每种技术栈的特点选定个性化的算法,进行健康度打分;二是对汇总资源健康度打分,通过下层资源的汇总,对不同层级(业务、应用系统等)技术栈的优先级记性加权从而计算上层的健康度。通过两个层级的健康度打分,得到全业务域的健康度。 资源健康度打分规则 应用系统健康度打分规则 通过对资源数据的实时感知和历史数据分析,对每类资源类




