您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:大模型时代的智能运维AIOps - 发现报告
当前位置:首页/行业研究/报告详情/

大模型时代的智能运维AIOps

信息技术2023-10-18裴丹清华大学赵***
大模型时代的智能运维AIOps

大模型时代的智能运维(AIOps)分享主题裴丹清华大学 面临哪些技术挑战?与以往的AIOps小模型是什么关系?问题如何选择通识大模型底座?近、中、长期有哪些应用?大模型时代,运维界普遍关注的问题 在大模型时代,AIOps可以“说人话”了@#¥%+op*&...¥%#@23*&*&%¥#au&**&怎么了?它不停的说:找到她了!!它找到谁了?莉娅公主她在哪里!第五层,AA-23囚室她马上要被处决了·····*&*&%¥#au&**&&%$#@...au&**&&5%9$av#@...Oh my god !快去救人!C-3PO机器人R2-D2机器人星战男主人公现有AIOps工具大语言模型决策者 除了需要“说人话”,AIOps还需要把语言模型与已有的小模型工具有机整合AIOps小模型数量众多多样化的场景预防发现定位恢复改进多模态数据实时数据数据关系复杂指标软件模块\调用关系日志文本(工单, 变更, 操作)应用性能监控社交媒体拨测告警配置流量镜像 比尔·盖茨:AI智能体即将彻底改变我们使用计算机的方式助理教练顾问参谋专家运维智能体 AIOps中的智能体历史工单、告警、操作记录、文档等 通识大模型在运维领域表现整体不如人意,而且参差不齐7第一梯队第二梯队第三梯队通用领域知识性能优化混合型任务自动化脚本故障分析和诊断网络配置软件部署监控告警欢迎为评测榜单贡献题目和模型:https://opseval.cstcloud.cn/content/leaderboard 运维领域的应用需要一个“能听懂运维语言”的大语言模型基于私域运维数据:提示工程、外挂知识库检索私有部署运维大语言模型基于公域运维语料、知识库,进行预训练、微调、提示工程运维大语言模型松耦合的通识大语言模型底座大语言模型的模型栈L1L2L3 系统优势风控优势对错误容忍度低,尽量避免幻觉判断对错、标注门槛高结果必须可解释性强支持低开销私有部署运维语料不足,私有语料质量数量更不足如何融入大量存量结构化知识如何结合大量存量AIOps、自动化运维工具大语言模型无法直接处理结构化、多模态、实时数据技术挑战既要避免过于乐观:大模型在运维领域普遍落地还存在不少技术挑战 也要避免悲观:前述所有技术挑战都有技术思路可以解决挑战解决思路避免幻觉检索增强增大显式知识占比:思维链、思维树、思维图、知识图谱“有据可依”的生成策略提供可解释性可解释性强严肃语料不足训练策略:课程学习,由易到难私有部署开销低模型分层在公域做预训练、微调、提示工程私有部署时避免预训练、微调通过检索方式融合本地知识库文档、提示作为便捷的知识工程手段通过降低模型精度降低私有部署推理开销私域数据数量、质量不足底座模型选择与开源大语言模型底座尽量解耦大语言模型无法直接处理结构化、多模态、实时数据多模态基础模型群;AIOps结构化大模型:左脑AIOps算法,右脑运维知识图谱如何结合大量存量AIOps、自动化运维工具基于智能体方式,采用基础模型编程框架,融合小模型运维工具(插件(Plug-in),工具(Tool)) 不求全面开花,而是小步快跑、以用促建:近期、中期、长期应用的定位运维大语言模型带来的直接增量价值眼:监控手:自动化运维心:专家人工审核、决策耳:基于运维大语言模型的输入增强嘴:基于运维大语言模型的输出增强脑:AIOps•左脑:算法•右脑:运维知识图谱助理教练顾问参谋中长期应用的定位+内部专家 运维大语言模型近期应用举例(1):数字化运维助手问:X应用交易响应时间比平时增加1倍,可能原因是什么?答:可能的原因包括:1. 依赖Y应用处理时间过长2. 中间件Weblogic问题,请检查...3. 网络丢包问题,请检查相关服务间见的网络链路丢包率是否有异常4. 第三方应用问题,请检查...问:Oracle活跃会话数的确飙高了,请问可能的原因是什么?答:Oracle实例B的活跃会话数的确飙高可能的原因包括:1. log-file-syn告警2. 实例B的主机异常3. 有CPU占用过高的SQL对结构化知识检索问:中间件WebLogic的确异常,请问下面怎么办?答:中间件Weblogic异常的原因包括:1. WebLogic堆空间满,请检查...2. Oracle数据库“平均活跃会话数”指标飙高问:查到实例B上有个SQL C占用CPU 90%,该如何处理?答:建议杀掉该SQL C,具体指令是... 。建议联系Oracle数据库管理员执行该操作。 运维大语言模型近期应用举例(2) :私有文档问答松耦合的通识大语言模型底座基于私域运维数据:提示工程、外挂知识库检索基于公域运维语料、知识库,进行预训练、微调、提示工程私有部署运维大语言模型运维大语言模型生成技术:检索增强生成策略:通过“有据可依”提供可解释性让模型能够正确的给自己生成的内容打上引用(reference),清晰地展示出每一段是来自于哪个文本检索插件私有文档 运维大语言模型近期应用举例(3):脚本解读(Query2Lang)对存量脚本进行文字解读SQL2Lang(解读SQL) GSQL2Lang (解读图SQL)Scripts2Lang(解读脚本)Config2Lang(解读配置)SPL2Lang (解读日志查询语句) 运维大语言模型近期应用举例(4):数据注释(Data2Annotation)对运维数据中的本体、实体、属性、字段、标签进行注释Config2Lang(解读配置)设备类型指标含义日志关键字告警类型告警常见原因告警常见处置建议 近中期应用:Lang2Query, 为单个存量工具提供自然语言交互增强,提供意图识别、总结等能力基础: 数据标准化、工具接口标准化Config2Lang(解读配置)Lang2API(自动生成API调用) Lang2SQL(自动生成SQL)Lang2GSQL(自动生成图SQL)Lang2SPL(自动生成日志查询语句)Lang2Scripts(自动生成脚本)Lang2Config(自动生成配置) 中长期应用:基于AIOps智能体,编排多个工具完成复杂运维任务举例:基于大语言模型的实时故障工单自动生成基于大语言模型,以实时日志、调用链、指标等数据为输入,结合故障检测、定位、根因分析、影响分析等AIOps工具的输出,自动生成实时故障工单。 大模型在AIOps领域的应用落地路径避免过于乐观:运维大模型仍面临不少挑战杜绝幻觉、可解释性强、私有部署开销低、私有语料质量数据均不足、融合存量知识、工具、多模态数据、通识大语言模型底座不易选择应用及路径建议:小步快跑、以用促建数字化运维助手,私有运维文档问答,运维脚本解读,运维数据注释近期近中期为单个运维工具提供自然语言交互增强中长期基于智能体,编排多个工具完成更复杂运维任务应用的定位:从助手、教练、顾问、参谋到内部专家大势所趋、前景可期、机遇与挑战并存、协同创新、以用促建避免过于悲观:挑战都可解模型分层:通识大语言模型、运维大语言模型、私有部署运维大语言模型区分、整合非结构化大模型与结构化大模型关键组件运维大语言模型是核心基础运维大语言模型多模态基础模型群通过检索融合本地知识库•检索增强、有据可依•课程学习、由易到难•知识工程:从文档到知识图谱,增加显示知识•检索本地知识库、降低模型精度•与通识大语言模型底座尽量解耦结构化大模型:左脑AIOps算法、右脑运维图谱智能体&基础模型编程框架谨慎乐观

你可能感兴趣

hot

大模型时代:智能设计的机遇和挑战

浙江大学国际设计研究院2023-06-15
hot

2023大模型时代:智能设计的机遇和挑战

信息技术
浙江大学&阿里巴巴2023-08-24