您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [-]:大模型在华为云数字化运维的全面探索和实践 - 发现报告

大模型在华为云数字化运维的全面探索和实践

信息技术 2024-12-05 乔彦辉 - 亓qí
报告封面

演讲人:乔彦辉 目 录 02大模型使能运维规划 01华为云智能运维发展之路 04总结和规划 03运维大模型难点和解法 01华为云智能运维发展路线 从单点,到复杂,再到自动化 华为云AIOps发展之路-从单点,到复杂,再到自动化 •串并联智能运维,可视,可决策,可执行(2021-2023)•大模型使能运维,LLM+运维Copilot(2024~) •单场景智能运维,传统ML算法(2018-2020) •日志模版分析(2018)•云服务单指标异常检测(2019)•告警智能压缩(2019)•网络多级异常检测(2020) •自然语言问答,运维信息查询•运维知识检索•故障自动总结•故障案例推荐 •硬件故障预测(2021)•变更命令分级智能识别(2023)•变更人员匹配度评估(2023)•安全生产自动稽查(2023)•变更风控驾驶舱(2023) 智能运维场景 分析报表运维智能决策运维算法运维数据数据服务运维决策服务 智能运维架构 运维数据运维算法算法服务 •KPI,告警,日志•变更数据•运维人员流程数据 •KPI,告警,日志 •运维语料•运维私有知识库 02大模型使能运维总体规划 聚焦高价值高门槛高人力场景,面向长期规划 大模型使能运维业务规划:聚焦2条核心价值流,全面辅助运维人效提升 聚焦高门槛,高价值,高人力场景,拥抱大模型提升运维人效 构建运维盘古助手,聚焦运维人效提升,打造智能运维新高地 •定位:沉淀大模型使能运维标准方案,建设全面辅助问答交互能力,打造运维副驾驶 •多触点构建:构建运维助手多种触点模式,全面辅助运维场景,支持web,WeLink机器人和运维工具系统集成 •运维Copilot Stack:构建运维Copilot能力集,实现端到端运维对话,意图理解,Agent和Tools建设,和运维大模型集成,实现运维大语言模型端到端构建; •运维大小模型协同计算:小模型聚焦确定性量化分析,大模型注重内容理解和生成 •高质量运维知识语料中心:围绕运维知识数据收集,知识规范,知识管理和运维语料标注全面建设 03运维大模型应用难点和解法 围绕语料,知识,意图理解和复杂决策以及新交互实现大模型应用运维的确定性 围绕运维大模型4大难点,构建6大方案 4大难点: •语料少,知识质量差•大模型幻觉•大模型逻辑推理难•业务应用难,见效慢 6大方案: •运维语料数据增强•全流程知识治理•确定性运维意图理解•增强RAG实践•基于确定性决策实现大小模型协同故障诊断方案•多触点集成方案,提升业务生产力 运维语料数据增强:采用大模型合成数据和语料的持续迭代实现语料数据增强 面临的问题: 1获取语料难:原始真实语料少,如何获取真实问答语料2真实语料少:冷启动阶段运维语料少3运维语料持续治理难:运维语料数据配比和有效性证伪难 全流程运维知识治理:确定运维知识地图,明确职责边界,统一知识管理和存储,构建知识消费运营体系 面临的问题: 华为云运维领域涉及多种知识:流程规范知识,产品使用知识,内部案例wiki,知识治理和消费难 •如何选择知识?•如何治理知识?•如何管理知识?•如何消费知识? 效果:围绕事件知识,运维流程规范知识和产品知识,达成知识完整度:90%,知识准确率:85+% 确定性运维意图理解:多层路由,结合大小模型构建运维多场景智能问答意图识别能力 案例:结合分层意图路由,支持20+高频运维指令查询 查询监控指标 查询告警 查询变更单 增强RAG实践:从知识问答改写到多路知识检索全面提升 面临的问题: 事件咨询问题提问不精确,意图缺失,影响知识检索的有效性,多种知识相互干扰,回答存在幻觉问题 1如何理解真实知识问题?2多种知识提升检索有效性? 案例:面向事件信息事前自动提取问题概要,事后多路检索提升大模型检索准确率 基于确定性编排构建大小模型协同的故障分析方案 生成故障分析步骤 面临的问题: 故障诊断涉及多种监控数据查询,异常检测,根因聚类定界,故障报告总结等多个环节,传统大模型难以构建复杂推理决策能力 历史案例:请根据以下参考的故障案例生成故障处理步骤。故障案例:名称故障现象:告警事件故障处理步骤如下:步骤1:查询告警信息步骤2:基于告警信息确定诊断模型:云服务RDS场景,诊断模型:数据库诊断云服务ECS,诊断模型:服务器诊断步骤3:基于2的结果,确定诊断模型函数… 1大模型如何端到端解决运维复杂任务? 关键点三:组合故障大小模型,小模型精确诊断定界,大模型确定预案推荐和总结 案例:结合编排框架实现运维故障总结分析概要 自动实现多种信息内容聚合生成✓关联告警:XX✓变更信息:XX✓告警信息:XX✓客户保障:XX✓综合分析结论:XX 多端触点集成,实现运维助手全场景覆盖,改变用户交互行为 案例:模式一,深度融合运维工具链路,实现大模型问答无缝集成应用 案例:模式二,运维工具和运维助手大小屏联动分析,左屏可视,右屏辅助 05总结和未来规划 结合人机协同,基于LLM和AI Agent构建运维数字助理驱动运维智能化演进 总结和趋势 总结: •大模型使能运维重点围绕提升运维生产力为主:选择高门槛,高人力,高价值点场景•大模型加速智能运维快速走向下一个阶段,运维助手将改变运维的交互模式,从而真实实现从自动化运维走向无人化运维•大模型只是一个算法手段,降低模型应用的复杂度,但面向运维场景应用需要构建从知识语料>运维大小模型算法调优>编排框架>Copilot Stack>产品集成应用>数据化运营端到端构建 趋势: •业务演进:运维大模型使能三阶段,辅助运维-》运维工作流集成-》运维数字助理•算法架构:运维大小模型协同将是未来运维算法架构的常态•未来技术:从自动化运维走向无人化运维,核心需要实现人机协同技术和AI Agent技术的集成应用 未来规划:基于大语言模型和人机协同技术,构建运维智能中枢决策引擎,驱动运维无人化变革 THANKS 大模型正在重新定义软件Large Language Model Is RedefiningThe Software