您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动信息技术中心]:中国移动IT大数据运维域数智运维能力实践 - 发现报告

中国移动IT大数据运维域数智运维能力实践

AI智能总结
查看更多
中国移动IT大数据运维域数智运维能力实践

周世峰资深运维开发专家 个人介绍 周世峰中国移动信息技术中心资深运维开发专家 负责中国移动梧桐大数据平台运维技术方案制定和数智运维能力研发实施;负责大数据业务场景AIOps技术实现及其相关方案制定编写;大规模运维分析、ai算法应用,编写多篇专利、论文、软著 1 中国移动梧桐大数据整体概述 目录 中国移动梧桐大数据运维体系 2 CONTENTS 中国移动梧桐大数据数智运维实践 3 中国移动梧桐大数据平台总体情况 中国移动作为全球客户规模最大的运营商,系统规模行业领先,创新性的打造了中国移动大数据分布式协同计算平台,通过九大区域中心解决中国移动海量数据高效处理问题,兼具拥有全覆盖、全方位、全时空的融合数据,通过专业的系统运维服务,积极敞开怀抱,面向各行各业开展合作。 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 稳定、高效、自主、安全的统一运维体系 结合中国移动业务特点和梧桐大数据最佳实践,搭建一套完整的平台、数据、应用全流程自主安全的运维管理体系,沉淀一套完整的运维架构和能力,健全专业化运维组织完善范制度和流程;通过标准化运维工具,固化IT运维流程,提升运维效率和效能,实现大数据运维体系自动化、数智化全面升级。 1 中国移动梧桐大数据整体概述 目录 中国移动梧桐大数据运维体系 2 CONTENTS 中国移动梧桐大数据数智运维实践 3 构建“极致可靠性”体验,智能化运维管理平稳落地 中国移动梧桐大数据结合企业实际情况去繁从简,以完善的运维服务制度、流程、规范和工具为基础,以先进、成熟的运维管理平台为手段,以高素质的运维服务队伍为保障,提供7x24小时业务持续性,高效支撑企业全栈业务安全、稳定运行。 打造数智化运维体系,提升运维服务效率 通过数智化运维打造运维之体,搭建平台、应用、数据运维,全流程的运维管理系统,构建多维度监控体系,提升运维服务效率,实现对运维精细度的优化及运维可靠性、稳定性的提升。 平台运维指标 •redis:客户端连接数、lave数量等; 平 台 运 维 对 平 台 的 进 行 全 方 位 监 控和 管 理, 保 证 系 统 的 稳 定性 和 服 务 的 连 续 性 。 应用系统监控 应 用 运 维 •服务进程监控•JVM内存监控•报表监控•...... 以业务为中心,通过多维度监控体系,实现应用系统稳定运行。 数据运维指标 •数据采集:接口数、任务数、数据量、接口到达时间等•数据加工:模型数、任务数、任务执行时长、任务完成时间等•数据质量:稽核指标、稽核任务数、数据波动性、数据完整性,唯一性,一致性,准确性,有效性,及时性等 •...... 围 绕 数 据 采 集 、 数 据 加 工 、 数 据 质 量 等环 节 , 构 建 持 续 、 敏 捷 、 全 面 、 可 信 的数 据 生 产 和 服 务 流 程 , 持 续 交 付 可 信 数据 , 提 供 灵 活 迅 速 的 数 据 服 务 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 基于自动化与多维观测能力,提升运维效能 以多层视角观测集群、组件、应用、数据全方面的四层穿透运营监控,实现标准化的观测视图以及监控指标呈现,通过自动化的巡检-分析-处置以及智能化技术的运维应用,达到“一眼看全、一眼到底”。 推进数智化转型,实现高质量发展 在云计算、大数据时代到来的大背景下,通过引入人工智能/机器学习技术,全面的掌握运维对象当前及历史运行情况,以及其运行态变化给周边带来的影响,采用多种AI分析算法进行智能运维分析,进步一解决运维问题,实现故障快速排查、分析、定位,预测让运维更加智能化、服务化。 l根因诊断RCA Ø租户业务涉及主机组件、中间件、应用服务的日志、指标、调用链数据串联,实现租户业务全流程日志分析及诊断,直观展示租户业务故障原因下钻,并告警通知。 Ø通过预测能力缩短故障定位时间,提前防范风险再次发生。 Ø根原因分析:构建业务服务节点拓扑图、子服务发现以及根因排序算法 l趋势预测及系统瓶颈分析 Ø当服务性能指标指标缓慢增加时,业务受理时长和接口积压量并没有显性变化。当达到一定临界点时,同一时刻系统能够承受的业务办理量成下降趋势,即提前预测系统瓶颈。 Ø业务活动区间接口调用趋势和响应时长超过临界点时,存在相互影响关系,导致系统性能下降。 1 中国移动梧桐大数据整体概述 目录 中国移动梧桐大数据运维体系 2 CONTENTS 中国移动梧桐大数据运维实践3 中国移动梧桐大数据数智运维挑战 基于ClickHouse的运维可观测性-运维数据中心 根据运维平台业务的不同,从平台-数据-应用三个角度实现可观测性运维。制定统一运维域数据采集、治理规范,实现统一监控、告警、自动化运维平台;针对日常核心关键指标进行实时异常检测、关联日志分析并进行每日每周巡检分析。 运维观测中心 运维分析中心 运维数据治理 •实时监控、指标日志异常检测•关键性能指标预测预警分析•日常巡检日报、月报统计分析 •主机、组件、集群、平台统一运维监控可视化•计算平台、作业任务血缘关系可视化•实时监控告警、关联分析、自助处理流程化 •统一运维采集规范、数据治理规范•实时日志解析分析平台•构建大数据运维域指标监控体系 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 基于ClickHouse的运维可观测性-资源性能监测 实现对IaaS、PaaS、DaaS、SaaS各层全量监控指标体系,结合二级数据采集架构以及弹性可扩容的clickhouse集群。使用ELB(Elastic Load Balance)来进行流量分发,通过ELB的轮询机制,写不同节点上的本地表(Local Table),读不同节点上的分布式表(Distributed Table) •主机层面:基础监控指标、基线配置、防护软件、态势感知、关键进程•集群层面:集群组件服务性能、读写;数据库关键服务进程、sql执行状态•工具服务层面:工具服务进程、数据作业任务状态、执行性能•应用系统层面:核心系统集成IPA探测 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 基于ClickHouse的运维可观测性-租户业务topo 设计租户业务拓扑调用链,从数据采集计算到业务服务,用于租户进行全场景业务服务故障定位及下钻分析;每一类节点中查询最新指标以及历史指标;查询当前时间数据库日志以及组件服务日志或通过统一查询入口进行服务类别、集群类别、租户类别、时间范围查询 •基于Grafana的FlowCharting构建租户业务topo,对租户资源管理、任务管理、应用管理进行分权分域设计•基于大数据平台支撑业务模式,设计CMDB模块-租户业务资源模块,实现业务的主机、组件、工具服务的关联•基于Grafana的权限管控改造,与统一运维平台的租户账号体系融合 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 AI在大数据运维领域的应用 目前大数据生产集群以每小时约50GB(约1.2亿~ 2亿行)的速度生成大量日志,这种日志的庞大数量使得从噪声数据中手动识别关键信息以进行异常检测变得非常困难,即使是使用搜索和Grep这样的实用工具也是如此,因此需要针对日志进行深度挖掘分析,进行预防式检测识别 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 AI在大数据运维领域的应用 基于梧桐大数据运维实况,面向全网入驻租户业务在Hadoop云平台全场景排查故障解决方案。结合租户业务的存储和计算资源对租户业务的以及服务和二级子服务进行调用图或树的构建,通过异常子图或子树进行根因服务排序,使用异常检测算法进行预测和推理,以提供全面的决策依据 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 大模型在大数据运维领域的探索 n智能交互式运维结合运维服务、自动化运维、运维开发,实现各类监控、告警、诊断分析、自动化运维操作,实现交互式运维操作n结合数据BI、代码编辑和运维大模型进行数据资产、监控指标、脚本的辅助开发,运维经验的生成 大模型在大数据运维领域的探索 n基于语言模型进行运维意图识别,进行运维服务注册并外围API插件开发,辅助自动化运维n基于大模型的SQL生成能力,进行Hadoop集群监控数据微调,支持对Yarn、Hdfs、Hive、Hbase等关键服务的指标查询、聚合分析 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 开放运维联盟高效运维社区DevOps时代 荣誉出品