AI智能总结
云智原生时代的客户运维新挑战 某大型生物基因公司 某跨国电器制造企业 告警多:业务故障时会产生大量告警(日均严重告警200+,月均告警短信10000+),一些关键故障可能被掩盖。 工具多:业务快速发展,IT规模急剧扩大,IT人员未增加,运维不转型已经无法支撑业务发展。 引入综合运维管理平台,运维数据标准化,借助AIGC能力,提高运维效率。 希望借助专家经验和AI算法提升告警准确性、降低告警数量。 某省医保 某能源企业 资源多:监控对象类型多、指标多,当某个指标告警时运维人员很难理解指标的含义、如何快速处置。 监控难:全面采用HSAF架构,springboot云原生架构和微服务,业务复杂度高,运维难度大。 希望借助AIGC“运维专家大脑”给予快速指导,并积累自己的处置经验。 希望利用全栈可视的智能运维技术减低运维复杂度,提升运维效率。 很多客户已经部署了多种运维工具,逐渐用工具替代传统人工运维,但是工具的智能化程度不足,运维数据未能很好转化为运维知识,所以运维仍然处处是痛点。 G O P S Ⰼ 椕 鵘 絶 㣐 ⠔ 2 0 2 3 · ♳ 嵳 畀 PlatformOps平台化运维 以软件定义、API驱动的模块化平台架构实现产品快速创新,推进系统集约化统一管理,促进IT运维和运营融合 企业向多云和云原生架构迁移,全栈可观测方案对业务的全栈可见、洞察和行动,实现跨技术栈的E2E洞察,对保障客户体验至关重要 生成式人工智能AIGC Automation自动化 基于AI技术、高级规则引擎、启发式和机器学习的应用,进行自动化决策和执行I&O活动,提升业务敏捷性 运用先进的人工智能技术和大数据分析,以实时优化和自我学习的方式提升企业的通信能力和网络安全。为企业提供更可靠和智能的运维解决方案 通过数据分析、交互设计和个性化推荐等技术手段,为用户提供更加个性化、智能化、便捷化的产品和服务体验 当智能运维遇到AIGC AIGC的出现让我们看到了一个新的解决问题的方法借助AIGC,智能运维的异常检测、趋势预测、故障诊断等场景可以真正地把过往的知识注入进去。没有AIGC的时候,知识是知识,算法是算法,它们之间是没有关联的。 运维大语言模型的产生和部署 运维大模型具备运维专业领域的背景知识,应用于运维场景,用于支持完成运维相关的任务和应用 运维领域是一个非常复杂的庞大场景,开源大模型具有更强灵活性和可扩展性,我们选择开源大模型作为运维大模型的底座 G O P S Ⰼ 椕 鵘 絶 㣐 ⠔ 2 0 2 3 · ♳ 嵳 畀 基于AIGC的统一运维平台框架 统一运维平台默认支持运维领域大模型,用户根据需要选择安装部署AIGC组件服务即可快速完成模型对接 AIGC技术在统一运维领域的应用探索 AIGC赋能典型运维场景 统一运维平台+大模型 利用大模型的力量强大的表征能力和迁移能力,可以有效分析和处理网络运维数据,提高运维效率和质量,推动网络智能技术高质量发展,打造更智能的服务 运维大模型:运维领域的热门趋势,具有巨大的发展潜力,广阔的发展前景 一、个性化定制拓展产品能力 大模型在生成代码、脚本方面,已经具备了良好能力,可以辅助运维工程师做定制化拓展产品能力。 传统定制服务的挑战 场景举例 定制 开发成 本 较高自 定 义 代码 编 写难 度 大自 定 义 代码难 以调 试业 务框架限 制多 自 定 义 采 集 脚 本 :涉 及 多 类 语 言(规 划 扩 展 支 持s h e l l /p y-thon/bat/SQL/JS等),脚本开发要求高,通过AIGC根据用户选择指标配置,快速输出自定义监控的所需要格式的代码。 自定义巡检脚本:脚本编写规则较为复杂,用户使用起来理解成本较高,通过AIGC技术一键快速生成脚本代码。 AIGC自定义扩展能力增强 支 持 强 扩 展 能 力 ,通 过 多 模 型 的 组 合 , 可 以 由 自 然 语 言 生 成 代 码 或 通过代码片段生成代码,辅助用户完成自定义脚本开发过程。 代 码 辅 助 增 强 ,比 如 添 加 注 释 , 代 码 可 读 性 优 化 , 代 码 评 审 , 代 码 功能讲解,代码风格检查,代码安全检查等。 G O P S Ⰼ 椕 鵘 絶 㣐 ⠔ 2 0 2 3 · ♳ 嵳 畀 二、随需的报表生成让状态更可视 借助大语言模型的能力快速获取目标数据,并进行数据分析,通过插件将其转化为图表,并辅以文字分析,形成运维报表,辅助运维工程师快速高效地了解系统的运行状况、发现潜在问题、做出更准确的判断 快速数据提取 AI数据分析 三、运维专家指导提升运维效率 我们汇集超9亿运维专业语料,包括帮助文档、产品资料、操作指导、故障处理手册等,以及超6万个运维知识案例;通过知识注入,让大模型的具备了为用户提供智慧运维专家指导的能力。 四、多工具融合编排解决复杂问题 工具+API 五、自动决策和执行减少人工干预 六、全景地图让故障无处遁形 全景地图正逐步成为运维的核心入口引入AIGC技术,在面对复杂问题定位方面提高了运维效率,增强了系统可靠性 多维感知,全景呈现更直观 利用AIGC对数据进行清理、格式化和预处理,高效数据建模,在全景地图上展示网络设备状态和连接拓扑 自动化识别KPI异常,告警生成并在数字地图上进行异常设备和故障节点标注 策略优化,服务质量更满意 风险洞察,趋势预测更准确 根据客户使用习惯,推荐不同运维场景推荐策略,提升满意度和服务质量利用已有的监控数据和知识,生成新的案例和知识,提高智能化运维的准确性,如未知流量模型ROCE的参数调优 结合历史数据和机器学习算法,预测可能的设备故障、网络拥塞和能源异常 预测未知威胁,从身份、终端、会话等多维度建模,识别异常行为,分析影响范围 辅助决策,故障处理更高效 结合AIGC技术,关联分析海量告警数据和维护日志。高效提取关键信息 通过学习和分析网络领域专家知识库,快速定位问题根源,推荐最佳的解决方案并提供相应的修复策略 G O P S Ⰼ 椕 鵘 絶 㣐 ⠔ 2 0 2 3 · ♳ 嵳 畀 新华三U-Center统一运维平台持续进化 匠心打造,连续五年市场第一 2022年,中国IT统一运维软件市场份额第一(11.3%)(连续五年排名第一) 深耕场景,服务百行百业客户 MES/ERP核心业务系统运行保障多种运维工具整合ITSM运维管理流程CMDB资源生命周期管理3D机房可视化 城轨云运管平台AOC运行保障航显系统运行保障数据交换平台系统运行保障经营决策分析系统运行保障 电子政务外网监控网络、服务器、操作系统基础监控政务业务用户体验监控业务可视化大屏业务运行报表运维管理流程 多数据中心统一运维管理核心业务系统端-端运行保障ITSM运维管理流程CMDB资源生命周期管理网络流量分析 G O P S Ⰼ 椕 鵘 絶 㣐 ⠔ 2 0 2 3 · ♳ 嵳 畀 管理创造价值运维成就客户 AIGC,打造智能运维新高度 THANKS