AI智能总结
尚梦宸中国信息通信研究院云计算与大数据研究所审计与治理部工程师 AIOps国际标准编辑人,从事DevOps, AIOps、系统稳定性等发展研究与行业标准制定工作,是《研发运营一体化(DevOps)能力成熟度模型》系列标准,《云计算智能化运维(AIOps)能力成熟度模型》系列标准,《企业IT运维发展白皮书》、《中国AIOps现状调查报告(2022)》等的编写成员之一。 调 查 背 景 介 绍 1 目录 调 查 样 本 分 布 情 况 2 CONTENTS A I O p s能 力 建 设 基 本 情 况 3 A I O p s场 景 应 用 情 况及未来趋势 4 01调查背景介绍 构建新时代稳定、高效、精细、安全的大运维体系 p围绕软件研发运营生命周期-需求、架构、开发、测试、运维5个维度;聚焦运维目标、组织、团队管理以及服务和工具能力5类基础保障;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的大运维体系。 保障关键信息系统平稳运行,受到高度重视 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性 《 信 息 系 统 稳 定 性保 障 能 力 建 设 指 南(1.0)》:梳理了分 布 式 系 统 从 建 设到 保 障 各 阶 段 中 ,为 保 障 稳 定 性 所 用到的通用方法论中国信息通信研究院 智能运维能力成熟度系列标准 标准编制组成员单位 第1部分:通用能力要求 第2部分:系统和工具技术要求 Ø面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 Ø面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 Ø以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位(部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 AIOps能力成熟度级别划分 v针对智能化运维应用场景层能力,从感知、分析、决策、执行、知识更新五个维度进行级别划分,并结合智能运维应用场景特点,形成以下级别划分。 §感知:收集和监测供智能化运维场景所需的原始输入数据的过程。 §分析:基于采集/接入的数据,进行数据分析,并由此为智能运维场景功能的实现得到决策依据的过程。 智能化程度逐级递增中国信息通信研究院中国信息通信研究院 §决策:基于分析过程推理得到的决策依据或选项,选择并确定智能运维场景中的配置和策略调整的过程。 §执行:基于决策过程确定的策略,根据场景不同做出进一步运维操作的过程。 §知识更新:基于过往操作、决策/经验或新业务/场景,进行知识迁移覆盖,更新知识库以提升现有能力的过程。 《智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求》 Ø《智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求》标准定义了智能运维领域建设可观测性能力的技术要求,包含建设可观测能力必备的数据采集传输、数据存储、数据处理、数据管理、数据观测能力以及观测场景,可用于指导基于可观测性能力的智能运维平台的规划、设计与实现。Ø本标准为相关企业选择可观测性系统工具提供了选型依据,也可为企业自建基于可观测性的智能运维平台作为参考。 p本标准已在中国通信标准化协会TC1WG7第1次工作组会议上成功立项,于2023年4月完成编制,并于2023年9月正式开启第一批评估报名。 AIOps能力成熟度模型系列标准评估 AIOps系统和工具技术要求评估结果 AIOps通用能力要求评估结果 v2023年4月,中国工商银行股份有限公司的“中国工商银行云原生智能运维建设项目”首批顺利通过AIOps通用能力要求评估,代表行业领先水平。 v截至2023年10月,共有18家企业33个项目通过了AIOps系统和工具评估,代表行业领先水平。 中国信息通信研究院 中国工商银行股份有限公司的中国工商银行云原生智能运维建设项目通过了《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》的【异常检测】场景、【日志定位】场景的3级评估 日志定位场景 异常检测场景 FinOps标准体系与生态 IT资源成本治理FinOps标准体系 《IT基础设施资源运营能力成熟度模型》 中国信息通信研究院 为指导企业开展云财务运营管理、推动国内云计算产业发展,让更多企业在敏捷、高效上云的同时,实现更加经济有效的用云,在工信部财务司以及云计算开源产业联盟的指导下,中国信息通信研究院联合国内云需求方、云厂商以及第三方云服务商一起,共同成立FinOps产业推进方阵,旨在云财务运营领域开展标准制定和解决方案输出工作。 02调查样本分布情况 调查样本分布情况 调查方法 本次调查报告采用在线问卷调查方式,共收集到有效问卷2320份。 梳理中国AIOps产业发展脉络,帮助企业了解智能运维发展现状,促进智能运维领域技术与应用的有效落地 03AIOps能力建设基本情况 中国AIOps现状-成本投入与关注方向 2023年超半数企业在智能运维方面投入资金对比去年有所增加,业务可观测性和SRE可靠性实践是企业当前重点关注方向。 企业智能运维方面资金投入情况 企业在技术投资时优先考虑的IT运营指标 •业务可观测性和SRE可靠性实践是当前重点关注方向。在业务可观测性和SRE方向关注度较往年提升超过20%,占比分别为46.47%和48.23%,是企业当前投资的重点方向。 •超半数企业2023年在智能运维方面投入资金情况对比去年有所增加,有11.29%的受访者所在企业表示相较去年在智能运维方面投入资金有所减少,另外33.02%的受访者所在企业资金投入情况与去年保持不变。 中国AIOps现状-智能运维能力建设与场景应用 2023年企业对于AIOps的应用情况和建设效果的评价更为客观、准确,且对当前和未来的建设方向逐渐清晰。质量和效率领域仍然是目前企业关注度最高的应用方向。 企业当前智能运维重点关注领域 企业AIOps能力建设阶段 •智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量和效率领域仍然是目前企业关注度最高的应用方向。59.31%的企业当前智能运维着重关注质量领域能力建设,其次是效率领域(47.28%)、成本领域(29.87%)和安全领域(35.99%) •AIOps处于发展阶段,企业对于AIOps的应用情况和建设效果的评价更为客观、准确,且对当前和未来的建设方向逐渐清晰。半数以上的受访者自评企业目前智能运维处于辅助智能化(37.33%)和进阶智能化阶段(28.02%)。 中国AIOps现状-智能运维能力建设与场景应用 通过采购第三方解决方案并组建团队进行联合开发的方式,快速构建智能运维能力,成为多数企业目前建设AIOps能力的主要方式。生成式预训练模型(GPT)能力目前处于探索发展阶段,但已有少数企业开始考虑引入或搭建相关能力,进一步提升运维成效。 企业生成式预训练模型使用情况 企业搭建智能运维平台/工具的方式 •根据本次调查显示,多数企业对生成式预训练模型暂时处于研究和了解中(47.38%),少量企业已开始实践(2.36%已自建GPT能力,7.55%已经引入厂商的ChatGPT接口能力,开始对内提供服务) •相较于2022年数据,受访者所在企业未建设智能运维平台/工具的比例有所下降,以采购第三方解决方案的方式逐渐成为主流,占比较去年增长超过20%。 04AIOps场景应用情况及未来趋势 中国AIOps现状-可观测能力建设 可观测性数据的融合与关联分析,对于提高数据价值、改善决策过程和降低数据分析成本都非常必要。可观测能力适用于根因分析、链路追踪、事件分析等多类数据分析定位场景。 可观测能力适用场景 可观测性数据融合和关联的必要性 •可观测能力建设可以帮助企业监控其系统和应用程序的性能、及时发现和解决问题以及提高系统的可靠性和稳定性。企业最希望通过可观测能力解决的问题是帮助快速诊断和解决问题(75.30%)以及支持数据分析和挖掘(74.61%)。 •通过调查发现,超六成(61.38%)受访者认为可观测性数据的融合和关联是非常有必要的,将数据进行融合和关联分析可以帮助运维人员更好地理解数据之间的联系和趋势,从而更好地做出决策。 中国AIOps现状-可观测能力建设 企业在建设可观测能力的过程中,主要关注对数据的处理能力、关联分析、动态发现和结果的自动处置能力。可观测能力的建设在数据采集、存储、分析关联以及构建数据可视化、数据观测能力的基础上,可以结合智能运维能力应用于多种不同的可观测场景。 可观测能力建设所需条件 可观测场景实践 •建设可观测能力的过程中,优先需要统一的数据采集、存储、分析和展示平台(27.42%)以及对多维度数据的关联分析能力(27.42%),其次是对应用与 资 源 之 间 依 赖 关 系 的 动 态 发 现 和 管 理 能 力(21.48%)。 •可观测场景主要分为基础设施、容器性能、应用性能、用户体验以及业务性能。目前关注实践较多的场 景 有 故 障 排 查( 3 2 . 5 9 %), 基 础 资 源 监 控(31.48%),应用性能监控(29.85%) 中国AIOps现状-智能运维发展趋势与挑战 2023年多数企业开始关注智能运维效果以及如何从数据入手进一步提升分析效果。但当前智能运维能力建设仍面临众多挑战。未来趋势:探索业务应用场景以及建设可观测性能力,并进一步提升运维效率同时不断优化现有场景能力。 智能运维技术面临的挑战 未来企业智能运维建设方向 •企业通过结合生成式AI、LLM等新技术探索业务应用场景、建设可观测性能力、进一步提升运维效率的同时不断优化现有场景能力将是未来发展趋势。 •企业建设智能运维技术及工具平台正从“可用、有用”向“易用、好用”转变。通过本次调查我们发现,多数企业开始关注智能运维效果以及如何从数据入手进一步提升分析效果 中国AIOps现状-新技术在运维场景的应用趋势 生成式AI、LLM等新技术在运维场景大有可为,也同样是各企业今年关注的热点方向,新技术引入时仍需注意安全风险、学习成本、可解释性、应用效果、资源投入等问题。 智能运维建设过程中遇到的困难 生成式AI技术在运维场景的应用趋势 运维引入生成式AI技术面临的挑战 •企业在使用生成式AI技术时需要权衡利弊,综合考虑自建生成式AI能力的投入成本和技术挑战,适时选择合适的第三方服务提供商。当前面临的问题包括:信息安全方面的风险,需要投入时间和资源培训,专业领域难发挥效果,生成答案的可信度,技术和资源投入。①安全风险 •绝大多数的领导层已经对智能运维能力建设加以重视并付诸行动,但在智能运维的建设过程中仍有诸多困难与挑战。 •当前关注度最高的生成式AI技术在运维领域的应用场景为故障根源分析(30.82%)。通过生成式AI技术增强IT智能客服场景能力(23.60%)同样受到较多关注。 智能化软件开发引领未来软件研发新发展格局 智能化软件开发:利用人工智能技术和机器学习算法来提高软件开发的效率和质量。智能化软件开发可以包括自动化测试、自动化部署、自动化代码生成、自动化代码审查等多