个人简介 白 璐 中国信息通信研究院工程师 专注于XOps研发运营领域研究,包括AIOps智能运维、FinOps、系统连续性与稳定性工程SRE、企业架构治理等多领域,参与编制《中国AIOps现状调查报告(2023)》《中国FinOps现状调查报告(2023)》,为《智能运维可观测性能力要求》《IT基础资源运营成熟度模型》《企业架构数字化治理能力成熟度》等标准主要参编人员,具备多年IT资源管理、企业数字化转型等领域经验。 现代化运维保障体系 AIOps可观测性 目录 运维大模型 大运维体系标准介绍 现代化运维保障体系 构建新时代稳定、高效、精细、安全的运维现代化保障体系 p围绕质量、成本、效率、安全5个维度;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的运维现代化保障体系。 外部环境与需求变化促进运维(Ops)向智能化发展 Ø智能运维的概念最早由Gartner在2016年提出,由最初的Algorithmic IT Operations,逐渐演变为Artificial Intelligencefor IT Operation Ø运维的需求与环境发生巨大变化:随着系统数量与业务规模持续性增长,运维数据指标数据量、种类不断增长。在大数据、云计算、人工智能等新技术的促进下,AIOps成为未来运维发展的趋势,是企业级DevOps在运维(技术运营)侧的高阶实现。 结合大数据和机器学习来自动化IT运营流程,包括事件关联、异常检测和因果关系确定。 总结:1.智能运维是以大数据平台和机器学习(算法平台)为核心。2.智能运维需要与监控、服务台、自动化系统联动,智能运维需要从各个监控系统中抽取数据、面向用户提供服务、并有执行智能运维产生决策模型的自动化系统。 政策助力我国智能运维产业蓬勃兴起 Ø数字化建设动能强劲,运维保障促高质效发展:产业发展离不开政策支撑,随着国家信息化建设的逐渐深入,信息系统已成为企业核心竞争力的重要组成部分,作为信息系统稳定、安全、高效运行的保障,IT运维也变得越来越重要。 Ø服务模式多样,智能运维产业多点开花:互联网公司、金融机构、IT技术公司走在了智能运维应用的前列。 阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。 京东科技实现了基于网络拓扑的根源告警分析,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。百度实现了基于智能流量调度的单机房故障自愈 能力,,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力。 国务院关于印发《“十 四 五”数 字 经济 发 展 规 划 的 通 知》 《关 于 推 动 平 台 经 济规 范 健 康 持 续 发 展 的若 干 意 见》 国 家“十 四 五”规 划《纲 要》 中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。 未来将培育壮大人工智能、大数据、区块链、云计算、网络安全等新兴数字产业。 数据的爆发增长为智能化发展带来了新的机遇。加快推动智能化应用建设,促进各环节智能化升级,提升基础设施网络化、智能化、服务化、协同化水平,加快优化智能化产品和服务运营。 鼓励平台企业加强与行业龙头企业合作,提升企业一体化数字化生产运营能力,推进供应链数字化、智能化升级,带动传统行业整体数字化转型。 金融 招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。交通银行通过数据中心运维大数据平台的建设 ,实现了事前智能预警、事后快速定位故障。 华为推出了基于大数据平台的数据中心网络智能分析平台。实现风险主动预测。日志易关注非结构化数据分析能力,对事件日志 技术厂商 进行上下文历史挖掘分析、周期性规律分析、成对成组出现分析、日志相关与因果分析。 浪潮云将收集到的机器数据转化为有运维价值的见解,让用户能实时了解IT系统与技术构架现状,以便做出决策。 智能运维能力成熟度系列标准 第2部分:系统和工具技术要求 标准编制组成员单位 第1部分:通用能力要求 Ø面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 Ø面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 Ø以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位(部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 AIOps能力成熟度级别划分 v针对智能化运维应用场景层能力,从感知、分析、决策、执行、知识更新五个维度进行级别划分,并结合智能运维应用场景特点,形成以下级别划分。 §感知:收集和监测供智能化运维场景所需的原始输入数据的过程。 §分析:基于采集/接入的数据,进行数据分析,并由此为智能运维场景功能的实现得到决策依据的过程。 智能化程度逐级递增 §决策:基于分析过程推理得到的决策依据或选项,选择并确定智能运维场景中的配置和策略调整的过程。 §执行:基于决策过程确定的策略,根据场景不同做出进一步运维操作的过程。 §知识更新:基于过往操作、决策/经验或新业务/场景,进行知识迁移覆盖,更新知识库以提升现有能力的过程。 我国AIOps技术发展成熟度现状 与2023年相比,企业AIOps成熟度全面提升 AIOps成熟度模型 根据中国信通院牵头制定的行业标准《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》中的AIOps能力建设分级要求,可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分。系统的参与程度随智能化程度逐级递增,并结合智能运维应用场景特点,形成AIOps能力成熟度模型,分为L1-L5五个等级。 随着AIOps建设不断深入,企业AIOps智能运维能力建设成熟度逐渐提高,更多企业进入L3进阶智能化运维阶段,占比58.42%,较2023年增加超过20%。此外,18.72%的受访者自评处于L2辅助智能化运维阶段,9.72%的受访者自评已达到全面智能化运维阶段。 AIOps场景应用情况 质量和效率领域仍然是目前企业关注度最高的应用方向,成本关注度显著提升 超四成企业已建立了智能运维系统/工具 智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量和效率领域仍然是目前企业关注度最高的应用方向,包括异常检测、告警收敛、根因分析、故障恢复等场景。此外,相比较2023年,2024年成本方向关注度显著提升,现位列第三,具体包括包括资源优化、成本评估、容量预测等场景。 随着技术的发展,智能运维正从单一场景向体系化发展,产品趋向于构建统一平台。超四成企业已建立了智能运维系统/工具,其中28.13%受访者表示已开始场景实践但尚未形成平台能力,15.2%的受访者表示已建立了智能运维平台能力,仅有1.96%的企业表示已建立了智能运维平台及相关的评价体系。 国际领先:智能运维(AIOps)国际标准发布 国际方面:中国信息通信研究院牵头提出首个智能运维(AIOps)国际标准,并正式发布! Ø国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps)标准:ITU-TY.3550Cloudcomputing-RequirementsforAIbasedcloudservicedevelopmentandoperationmanagement。标准基于ITU-TY.3525研发运营管理框架,引入AI能力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术的加持下进一步提高软件开发和运营管理效率。其中主要针对智能运维场景提出了相关能力要求和用例,用于指导企业进一步开展智能运维应用有效落地。此外,该建议还规定了部分智能化软件研发场景的功能要求。 Ø旨在通过进一步明确智能运维的功能要求,推进各方对智能运维能力体系架构达成共识,加强国际交流合作,以促进智能运维领域技术、应用的有效落地,持续推动国内外AIOps相关产业的健康有序发展。 ITU AIOps国际标准评估 国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps)标准:ITU-T Y.3550Cloudcomputing-RequirementsforAIbasedcloudservicedevelopmentandoperationmanagement。由中国信息通信研究院牵头制定,旨在推进各方对智能运维能力体系架构达成共识,加强国际交流合作,促进智能运维领域技术、应用的有效落地。AIOps国际评估三大亮点 AIOps国际标准介绍 增加AIOps国际标准评估证书。证书均由中国信息通信研究院/中国泰尔实验室颁发。 证书全面升级 ITU-T Y.3550标准基于ITU-TY.3525研发运营管理框架,引入AI能力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术的加持下进一步提高软件开发和运营管理效率。其中主要针对智能运维场景提出了相关能力要求和用例,用于指导企业进一步开展智能运维应用有效落地。此外,该建议还规定了部分智能化软件研发场景的功能要求。持续推动国内外AIOps相关产业的健康有序发展。 出具两份评估报告,即英文国际标准评估报告和中文国内标准评估报告。 报告全面升级 在国内标准基础上,增加国际标准技术要求,共计11项: 评估范围升级 •Codegeneration•Testcasegeneration•Integrationanddeployment•Abnormaldetection•Alarmconvergence•Faultlocalization •Faultrepairing•Resourceoptimization•Resourcecapacityprediction•Intelligentresponse•Knowledgebasemanagement AIOps通用能力要求评估结果 v中国工商银行股份有限公司的“中国工商银行云原生智能运维建设项目”首批顺利通过AIOps通用能力要求评估,代表行业领先水平。v中移动信息技术有限公司、中移(苏州)软件技术有限公司、中国联合网络通信有限公司智网创新中心于2023年12月顺利通过AIOps通用能力要求评估,代表行业领先水平。 AIOps系统和工具技术要求评估结果 AIOps可观测性 智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求 Ø发展背景:随着信息技术的飞速发展与深化应用,企业技术架构微服务化、业务系统依赖关系复杂化,传统的监控方式已经无法满足多云时代复杂技术场景下的异常监控、故障定位、根因分析等需求,导致潜在的问题和风险随之增多。Ø可观测性(Observability)是指一个系统内部的状态、行为和性能等方面可以被可靠地观察、分析和监控的程度。一个具有良好可观测性的系统可以让管理员和开发人员快速地发现、定位和解决系统问题,从而提高系统的可用性、稳定性和性能。 监控指标度量:对系统中某一类信息的统计聚合,用于衡量系统的性能和健康状况。这些指标通常是从系统的运行数据中提取出来,帮助运维和开发人员诊断、解决问题。如某些度量指标达到风险阈值时触发事件并发出