您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:大模型时代的智能运维AIOps - 发现报告

大模型时代的智能运维AIOps

信息技术2023-10-18裴丹清华大学赵***
AI智能总结
查看更多
大模型时代的智能运维AIOps

分 享 主 题 大模型时代的智能运维(AIOps) 裴 丹清 华 大 学 大模型时代,运维界普遍关注的问题 在大模型时代,AIOps可以“说人话”了 除了需要“说人话”,AIOps还需要把语言模型与已有的小模型工具有机整合 通识大模型在运维领域表现整体不如人意,而且参差不齐 欢迎为评测榜单贡献题目和模型:https://opseval.cstcloud.cn/content/leaderboard 大语言模型的模型栈 不求全面开花,而是小步快跑、以用促建:近期、中期、长期应用的定位 运维大语言模型带来的直接增量价值 眼:监控 手:自动化运维 脑:AIOps 心:专家人工审核、决策 耳:基于运维大语言模型的输入增强 嘴:基于运维大语言模型的输出增强 运维大语言模型近期应用举例(1):数字化运维助手 对结构化知识检索 问:X应用交易响应时间比平时增加1倍,可能原因是什么? 答:可能的原因包括:1.依赖Y应用处理时间过长2.中间件Weblogic问题,请检查…3.网络丢包问题,请检查相关服务间见的网络链路丢包率是否有异常4.第三方应用问题,请检查… 问:Oracle活跃会话数的确飙高了,请问可能的原因是什么? 答:Oracle实例B的活跃会话数的确飙高可能的原因包括:1. log-file-syn告警2.实例B的主机异常3.有CPU占用过高的SQL 问:中间件WebLogic的确异常,请问下面怎么办? 答:中间件Weblogic异常的原因包括:1. WebLogic堆空间满,请检查…2. Oracle数据库“平均活跃会话数”指标飙高 问:查到实例B上有个SQL C占用CPU 90%,该如何处理? 答:建议杀掉该SQL C,具体指令是…。建议联系Oracle数据库管理员执行该操作。 运维大语言模型近期应用举例(2):私有文档问答 检索插件 基于私域运维数据:提示工程、外挂知识库检索私有部署运维大语言模型 私有文档 运维大语言模型 基于公域运维语料、知识库,进行预训练、微调、提示工程 生成技术:检索增强 生成策略:通过“有据可依”提供可解释性让模型能够正确的给自己生成的内容打上引用(reference),清晰地展示出每一段是来自于哪个文本 松耦合的通识大语言模型底座 运维大语言模型近期应用举例(3):脚本解读(Query2Lang) 运维大语言模型近期应用举例(4):数据注释(Data2Annotation) 近中期应用:Lang2Query,为单个存量工具提供自然语言交互增强,提供意图识别、总结等能力 中长期应用:基于AIOps智能体,编排多个工具完成复杂运维任务 举例:基于大语言模型的实时故障工单自动生成 基于大语言模型,以实时日志、调用链、指标等数据为输入,结合故障检测、定位、根因分析、影响分析等AIOps工具的输出,自动生成实时故障工单。 大模型在AIOps领域的应用落地路径 应用及路径建议:小步快跑、以用促建 避免过于乐观:运维大模型仍面临不少挑战 应用的定位:从助手、教练、顾问、参谋到内部专家 近中期 近期 杜绝幻觉、可解释性强、私有部署开销低、私有语料质量数据均不足、融合存量知识、工具、多模态数据、通识大语言模型底座不易选择 数字化运维助手,私有运维文档问答,运维脚本解读,运维数据注释 基于智能体,编排多个工具完成更复杂运维任务 避免过于悲观:挑战都可解 谨慎乐观 区分、整合非结构化大模型与结构化大模型 模型分层:通识大语言模型、运维大语言模型、私有部署运维大语言模型 大势所趋、前景可期、机遇与挑战并存、协同创新、以用促建 运维大语言模型是核心基础 •检索增强、有据可依•课程学习、由易到难•知识工程:从文档到知识图谱,增加显示知识•检索本地知识库、降低模型精度•与通识大语言模型底座尽量解耦