AIOps落地要点实践
AIOps建设挑战
AIOps的核心目标是保障业务连续性,确保系统正常高效运作。AIOps落地难的本质在于运维领域对“确定性”的要求与AI泛化带来的“不确定性”之间的冲突。
打破数据边界
- 数据治理的重要性:未打破数据边界的AIOps工具如同用AI方法“降噪”,而真正有效的AIOps需要融会贯通各类运维数据,构建“活的”IT系统架构。
- 数据基础建设:通过指标、日志、调用链、业务对象、服务拓扑、资源拓扑等数据的统一治理,实现数据融合与图谱构建。
- 技术实现:采用统一协议与数据标准,利用CMDB、BCS、容器服务、可观测平台等技术,结合eBPF、APM、指标日志告警等数据源,通过清洗、聚合、融合、链接、入库、缓存、窗口、快照、归档等技术手段,实现数据的实时更新与增量存储。
打破算法边界
- 算法挑战:AIOps不仅是算法问题,更是一个具有AI特性的综合工程问题,面临概念漂移、数据漂移、模型适应性等挑战。
- 持续学习:采用主动学习+增量训练的模型训练模式,包括离线全量训练、离线分组训练、监督预训练等,并结合用户反馈进行模型优化。
- MLOps支持:支持MLOps生命周期,实现模型开发、持续训练、制品构建、持续部署的流程化,通过平台工具实现离线与在线持续训练。
打破场景边界
- 运维大模型应用:探索运维大模型在掉线分析等场景的应用,通过LLM分析掉线原因,结合智能异常检测、维度下钻、自动代理、结果生成等技术,提升分析效率。
- 工具与参数优化:通过格式描述工具、输出描述参数、LLM-Agent调用工具等方式,优化LLM的调用与参数生成,减少幻觉生成和错误调用。
关键数据与案例
- 装箱优化案例:某游戏业务集群通过深度强化学习进行装箱优化,释放10个nodes(占比13%),释放CPU 775core(占比13.56%),释放MEM 2.32TB(占比13.67%)。
- 算法对比:遗传算法与深度强化学习在装箱优化中的对比,深度强化学习(全量预测)和(增量预测)在释放资源、迁移成本、预测耗时等方面表现更优。
研究结论
AIOps的落地需要打破数据、算法和场景边界,通过数据治理、持续学习、MLOps支持和运维大模型应用,实现高效、精准的运维自动化与智能化。
盘隆蓝鲸AIOps平台负责人
A I O p s建 设 挑 战
1
目录
打 破 数 据 边 界
2
CONTENTS
打 破 算 法 边 界
3
打 破 场 景 边 界
4
研运一体化
AIOps建设难点
AIOps的核心工作仍然是保障业务连续性,关注系统正常/高效运作的确定性
AIOps落地难本质上是运维领域『确定性』要求与AI泛化带来的『不确定性』之间的冲突
02打破数据边界
AIOps数据的深入治理
运维数据需要真正的融会贯通,构建『活的』IT系统架构拓扑
『活的』数据是资产,『死的』数据是负债,只会产生『噪声』没有打破数据边界的AIOps工具,很大程度上是在用AI的方法『降噪』而已
实体融合
服务拓扑
通用完整的数据基础
图谱构建
图谱构建
本体定义
统一协议与数据标准
算法有毒
AI工程师的噩梦,从模型上线开始
数据漂移概念漂移模型适应性缺少方法论与最佳实践效果要求高IT运维环境复杂,异构性强,泛化要求高
AIOps是一个具有AI特性的综合工程问题,而非单纯算法问题
03打破算法边界
持续学习
主动学习+增量训练
MLOps
支持MLOps过程的平台工具
容器集群装箱优化场景
优化效果:
某游戏业务集群
释放nodes 10个(占比13%)CPU775core(占比13.56%)MEM2.32TB(占比13.67%)
集群规模:76个nodes,730个pods
其中427个pods有约束(亲和、反亲和、是否允许迁移)
基于强化学习提升适应性
04打破场景边界
运维大模型应用
掉线分析场景探索
•提供分析工具:为LLMAgent提供分析工具,例如智能异常检测或维度下钻•Prompt工程:通过提示模板帮助LLMAgent具象化每一步的任务•自动代理:LLMAgent调用分析工具,收集结果,并规划下一步的分析方向•结果生成:分析结束,总结工具使用LLM进行结果生成
基于LLM分析掉线原因
LLMAgent调用工具
LLM-Agent可以根据语义调用外部工具,并且生成调用参数
错误的思考
G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站
开放运维联盟高效运维社区DevOps时代
荣誉出品