您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[蓝鲸AIOps平台]:海量异构业务下的AIOps落地要点实践 - 发现报告

海量异构业务下的AIOps落地要点实践

2023-04-29蓝鲸AIOps平台H***
AI智能总结
查看更多
海量异构业务下的AIOps落地要点实践

盘隆蓝鲸AIOps平台负责人 A I O p s建 设 挑 战 1 目录 打 破 数 据 边 界 2 CONTENTS 打 破 算 法 边 界 3 打 破 场 景 边 界 4 研运一体化 AIOps建设难点 AIOps的核心工作仍然是保障业务连续性,关注系统正常/高效运作的确定性 AIOps落地难本质上是运维领域『确定性』要求与AI泛化带来的『不确定性』之间的冲突 02打破数据边界 AIOps数据的深入治理 运维数据需要真正的融会贯通,构建『活的』IT系统架构拓扑 『活的』数据是资产,『死的』数据是负债,只会产生『噪声』没有打破数据边界的AIOps工具,很大程度上是在用AI的方法『降噪』而已 实体融合 服务拓扑 通用完整的数据基础 图谱构建 图谱构建 本体定义 统一协议与数据标准 算法有毒 AI工程师的噩梦,从模型上线开始 数据漂移概念漂移模型适应性缺少方法论与最佳实践效果要求高IT运维环境复杂,异构性强,泛化要求高 AIOps是一个具有AI特性的综合工程问题,而非单纯算法问题 03打破算法边界 持续学习 主动学习+增量训练 MLOps 支持MLOps过程的平台工具 容器集群装箱优化场景 优化效果: 某游戏业务集群 释放nodes 10个(占比13%)CPU775core(占比13.56%)MEM2.32TB(占比13.67%) 集群规模:76个nodes,730个pods 其中427个pods有约束(亲和、反亲和、是否允许迁移) 基于强化学习提升适应性 04打破场景边界 运维大模型应用 掉线分析场景探索 •提供分析工具:为LLMAgent提供分析工具,例如智能异常检测或维度下钻•Prompt工程:通过提示模板帮助LLMAgent具象化每一步的任务•自动代理:LLMAgent调用分析工具,收集结果,并规划下一步的分析方向•结果生成:分析结束,总结工具使用LLM进行结果生成 基于LLM分析掉线原因 LLMAgent调用工具 LLM-Agent可以根据语义调用外部工具,并且生成调用参数 错误的思考 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 开放运维联盟高效运维社区DevOps时代 荣誉出品