AI智能总结
云计算与大数据研究所 汇报人:白璐 AI+运维:构建智能化运维新范式 中国信息通信研究院 01.中国信息通信研究院AIOps运维体系介绍 02.运维智能体标准介绍 03.智算运维标准介绍 2 邮电部邮电科学研究院 邮电部 电信科学研究规划院 信产部电信研究院 工信部电信研究院 中国信息通信研究院 发展使命 信息社信会息社创会新创新发发展展的的思想思库想和使库能和者使能者 中国信息通信研究院 院历史沿革,发展使命、定位及文化理念 邮电部 邮电部邮电分营 组建信产部 组建工信部 工信部 1957年1994年1998年2008年2014年 国家高端专业智库 产业创新发展平台 发展定位 文化理念 厚德实学 兴业致远 33 国家高端专业智库:战略、政策、法律法规等支撑成效 十八大以来,支撑起草部委以上政策文件299份,其中牵头支撑229份。 深入参与我国网络领域法律体系建设,全面支撑全国人大常委会法工委、国务院办公厅等相关立法研究和制定工作。 全程参与支撑我国网络领域重要立法项目 积极参与国际组织 国内标准研究主力军、国际标准研究重要力量 中国信息通信研究院 •承担工信部国际电联工作委员会秘书处办公室。 •在ITU,ISO,IEEE,APT,3GPP等国际组织中担任107个专业和管理职务。 •国际电信联盟授予ITU学院培训中心(ATC)、数字化发展创新和创业联盟全球加速中心(全球3家,中国唯一)。 •累计为90多个发展中国家培训学员超过4000人。 4 国家标准362项 团体标准751项 行业标准3708项 标准研究课题487项 •国内多家标准化组织核心成员,在18个技术委员会、48个工作组担任领导职务 •2002以来牵头制定: •深入参与全球标准化活动,牵头发布国际标准119项,参与制定国际标准143项,标准类其他成果33项。承担国际标准国内对口组长单位7个。 4 大模型运维时代 (2023s-2033s) 通过多模态大模型和数字孪生技术,实现了全域感知和自主决策能力,不仅能进行端到端诊断和预测性维护,还能自动生成解决方案,将运维响应速度提升至毫秒级。 小模型运维时代 (2015s-2023s) 开始运用机器学习算法,实现了基于数据驱动的异常检测和根因分析,使运维工作具备了初步的智能化特征,但仍受限于局部场景和人工规则配置。 自动化运维时代 (2005s-2015s) 通过引入配置管理和持续集成工具,实现了重复性任务的自动化处理,将故障恢复时间从小时级缩短到分钟级,并催生了DevOps文化。 传统运维时代 (1990-2005s) 运维工作完全依赖人工操作,技术人员通过基础监控工具和脚本进行被动式故障处理,响应速度慢且效率低下。 中国信息通信研究院 运维的技术发展与跃迁 随着信息技术的飞速发展和数字化转型的深入推进,运维领域经历了从传统人工操作到智能自治的跨越式发展。从最初依赖人工经验的被动响应,到自动化工具带来的效率革命,再到机器学习赋能的智能分析,直至如今引入大模型等人工智能技术实现的自主决策,运维工作不断突破技术边界,从"人力密集型"向"认知密集型"转变。 从“AIOps1.0”到“AIOps2.0” 智能运维AIOps的概念最早由Gartner在2016年提出,由最初的AlgorithmicITOperations,逐渐演变为ArtificialIntelligenceforITOperation。 AIOps1.0时代(小模型运维时代):核心技术围绕数据驱动和局部场景智能化展开,包括事件关联、异常检测和因果关系确定。 中国信息通信研究院 AIOps2.0时代(大模型运维时代):通过多模态理解、自主决策和系统级协同实现了运维能力的跃迁。 AIOps1.0时代 AIOps2.0时代 •机器学习算法:时序预测模型、无监督学习 基础技术算法等。 •深度学习算法:卷积神经网络CNN等。 •通用大模型(如GPT-4、Claude):处理自然语言工单、文档和日志。•垂直领域微调模型(如运维专用LLM):针对日志解析、故障推理优化。•多模态融合:同时分析文本日志、时序指标、拓扑图等异构数据。 •预测磁盘容量、CPU负载等指标趋势,提前触 应用场景发扩容 •识别偏离正常模式的指标(如网络延迟突增)。•通过日志和指标关联定位故障源头。 •自动生成故障报告(含根因、影响范围、修复建议)。•通过对话交互理解运维需求(如“为什么服务延迟升高?”)。•结合多模态数据提升预测、关联分析、根因定位准确率。•运维智能体自动执行运维操作。 •场景碎片化:每个模型仅解决特定问题(如磁盘 局限性预测、网络异常检测),缺乏全局关联。 •依赖特征工程:需人工定义关键特征(如“CPU 使用率>90%持续5分钟=异常”)。 •冷启动问题:新系统缺乏历史数据时模型效果差。 •计算成本高:大模型训练和推理需消耗大量GPU资源。•可解释性弱:复杂决策过程难以完全透明化(黑箱风险)。•领域适配门槛高:需针对具体运维场景微调模型。 启蒙阶段成熟阶段 国家网信办等七部门联合发布 《生成式人工智能服务管理暂行办法》 多项政策鼓励人工智能技术高质量发展 随着数字经济的蓬勃发展,人工智能技术已成为推动各行业变革的核心力量。2024年《政府工作报告》提出开展“人工智能+”行动,积极推进数字产业化、产业数字化,推动数字技术和实体经济深度融合,深化大数据、人工智能等技术的创新应用。 全面贯彻新发展理念,统筹高质量发展和高水平安全,加快赋能新型工业化,以抢抓人工智能产业发展先机为目标,完善人工智能标准工作顶层设计,强化全产业链标准工作协同,统筹推进标准的研究、制定、实施和国际化,为推动我国人工智能产业高质量发展提供坚实的技术支撑。 《国家人工智能产业综合标准化体系建设指南(2024版)》 数据的爆发增长为智能化发展带来了新的机遇。加快推动智能化应用建设,促进各环节智能化升级,提升基础设施网络化、智能化、服务化、协同化水平,加快优化智能化产品和服务运营。 鼓励生成式人工智能技术在各行业、各领域的创新应用,探索优化应用场景,构建应用生态体系。 中国信息通信研究院 国务院关于印发《“十四五”数字经济发展规划的通知》 打造AI驱动的运维保障体系(SOMM) 从智能运维、精细化运维、稳定性保障、数据能力四大核心领域入手,共同构建AI驱动的运维保障体系(SOMM)。联合多行业100+企业,打造开放、协同的运维生态,推动运维智能化转型,全面提升系统的稳定性、智能化水平,助力企业提质增效。 SOMM运维保障体系 运维大模型能力运维智能体 智能运维工具 系统可观测性 智算集群运维 Smart 智慧 FinOps精细化运维 云成本管理运营平台能力 预算额度、成本感知、成本优化、成本分摊与归集、辅助决算 企业用云治理能力成熟度评估 架构治理、资源供给及编排、资源分类管理、身份和访问控制 IT资源运营能力成熟度 预算管理、交付管理、容量管理、成本管理、运营管理 Sophisticated 精细 Stable 稳定 AIOps智能运维 模型优化提示工程 检索增强生成人机协同知识管理 ... AIAgent 中国信息通信研究院 监控智能体故障管理智能体知识管理智能体自动运维智能体 ... AIOps 异常检测故障自愈告警收敛智能问答 ... 应用可观测基础设施可观测用户体验管理 容器可观测 ... AI模型运维AI平台运维 AI基础设施运维 ... 数据能力 数据分类与标准化、数据质量管理、数据安全管理... SRE 稳定性保障 研发过程稳定性保障 稳定性准入、架构评审、测试管理代码质量管理、发布策略 运维过程稳定性保障 故障预防、故障观测、故障响应应急管理、持续运营 8 中国信息通信研究院 Smart:AIOps标准矩阵 信研究院中国信息通 中国信息通信研究院多年深耕智能运维标准体系及产业生态建设,自2019年以来,联合运营商、银行、证券、能源、互联网等众多行业80余家企业,牵头编写并发布智能运维通用能力要求、智能运维系统工具要求、智能运维可观测性能力要求等多个维度的AIOps系列标准,共计有7大行业、近30家企业、50余项通过AIOps系列标准评估。 2025年,正式启动智算运维能力成熟度模型、运维智能体技术能力要求标准编写,欢迎各行业专家加入。 已有标准 在研标准 院 息通信 中国 标准编制组成员单位 以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位 (部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 第2部分:系统和工具技术要求 面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 第1部分:通用能力要求 面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 中国信信息通信研研究究院 智能运维能力成熟度系列标准 可观测性能力赋能业务价值提升 发展背景:随着信息技术的飞速发展与深化应用,企业技术架构微服务化、业务系统依赖关系复杂化,传统的监控方式已经无法满足多云时代复杂技术场景下的异常监控、故障定位、根因分析等需求,导致潜在的问题和风险随之增多。 可观测为业务发展提供高价值洞察力 应用可观测性入选Gartner2023年需要探索的十大战略技术趋势之一。 横向关联 纵向分析 可观测性助力企业快速地发现、定位和解决系统问题 《智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求》包含建设可观测能力必备的数据采集传输、数据管理、数据观测能力以及基础设施、应用性能、用户体验观测场景,可用于指导基于可观测性能力的智能运维平台的规划、设计与实现。 中国信息通信研究院 可观测性(Observability)是指一个系统内部的状态、行为和性能等方面可以被可靠地观察、分析和监控的程度。一个具有良好可观测性的系统可以让管理员和开发人员快速地发现、定位和解决系统问题,从而提高系统的可用性、稳定性和性能。 中国信息通信研究院 AIOps能力成熟度级别划分 针对智能化运维应用场景层能力,从感知、分析、决策、执行、知识更新五个维度进行级别划分,并结合智能运维应用场景特点,形成以下级别划分。 级别/名称 分级维度 执行 感知 分析 决策 知识更新 L5 高度智能化运维 系统 系统 系统 系统 系统 L4 全面智能化运维 系统 系统 系统 系统为主 人工为主系统辅助 L3 进阶智能化运维 系统 系统 系统为主 人工为主系统辅助 人工 L2 辅助智能化运维 系统 系统为主 人工为主系统辅助 人工 人工 L1 初始智能化运维 系统为主 人工为主 人工 人工 人工 智能化程度逐级递增 感知:收集和监测供智能化运维场景所需的原始输入数据的过程。 分析:基于采集/接入的数据,进行数据分析,并由此为智能运维场景功能的实现得到决策依据的过程。 决策:基于分析过程推理得到的决策依据或选项,选择并确定智能运维场景中的配置和策略调整的过程。 执行:基于决策过程确定的策略,根据场景不同做出进一步运维操作的过程。 知识更新:基于过往操作、决