行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

海量异构业务下的AIOps落地要点实践

2023-04-29 蓝鲸AIOps平台 HEE

AIOps落地要点实践

AIOps建设挑战

AIOps的核心目标是保障业务连续性，确保系统正常高效运作。AIOps落地难的本质在于运维领域对“确定性”的要求与AI泛化带来的“不确定性”之间的冲突。

打破数据边界

数据治理的重要性：未打破数据边界的AIOps工具如同用AI方法“降噪”，而真正有效的AIOps需要融会贯通各类运维数据，构建“活的”IT系统架构。
数据基础建设：通过指标、日志、调用链、业务对象、服务拓扑、资源拓扑等数据的统一治理，实现数据融合与图谱构建。
技术实现：采用统一协议与数据标准，利用CMDB、BCS、容器服务、可观测平台等技术，结合eBPF、APM、指标日志告警等数据源，通过清洗、聚合、融合、链接、入库、缓存、窗口、快照、归档等技术手段，实现数据的实时更新与增量存储。

打破算法边界

算法挑战：AIOps不仅是算法问题，更是一个具有AI特性的综合工程问题，面临概念漂移、数据漂移、模型适应性等挑战。
持续学习：采用主动学习+增量训练的模型训练模式，包括离线全量训练、离线分组训练、监督预训练等，并结合用户反馈进行模型优化。
MLOps支持：支持MLOps生命周期，实现模型开发、持续训练、制品构建、持续部署的流程化，通过平台工具实现离线与在线持续训练。

打破场景边界

运维大模型应用：探索运维大模型在掉线分析等场景的应用，通过LLM分析掉线原因，结合智能异常检测、维度下钻、自动代理、结果生成等技术，提升分析效率。
工具与参数优化：通过格式描述工具、输出描述参数、LLM-Agent调用工具等方式，优化LLM的调用与参数生成，减少幻觉生成和错误调用。

关键数据与案例

装箱优化案例：某游戏业务集群通过深度强化学习进行装箱优化，释放10个nodes（占比13%），释放CPU 775core（占比13.56%），释放MEM 2.32TB（占比13.67%）。
算法对比：遗传算法与深度强化学习在装箱优化中的对比，深度强化学习（全量预测）和（增量预测）在释放资源、迁移成本、预测耗时等方面表现更优。

研究结论

AIOps的落地需要打破数据、算法和场景边界，通过数据治理、持续学习、MLOps支持和运维大模型应用，实现高效、精准的运维自动化与智能化。

盘隆蓝鲸AIOps平台负责人 A I O p s建设挑战 1 目录打破数据边界 2 CONTENTS 打破算法边界 3 打破场景边界 4 研运一体化 AIOps建设难点 AIOps的核心工作仍然是保障业务连续性，关注系统正常/高效运作的确定性 AIOps落地难本质上是运维领域『确定性』要求与AI泛化带来的『不确定性』之间的冲突 02打破数据边界 AIOps数据的深入治理运维数据需要真正的融会贯通，构建『活的』IT系统架构拓扑『活的』数据是资产，『死的』数据是负债，只会产生『噪声』没有打破数据边界的AIOps工具，很大程度上是在用AI的方法『降噪』而已实体融合服务拓扑通用完整的数据基础图谱构建图谱构建本体定义统一协议与数据标准算法有毒 AI工程师的噩梦，从模型上线开始数据漂移概念漂移模型适应性缺少方法论与最佳实践效果要求高IT运维环境复杂，异构性强，泛化要求高 AIOps是一个具有AI特性的综合工程问题，而非单纯算法问题 03打破算法边界持续学习主动学习+增量训练 MLOps 支持MLOps过程的平台工具容器集群装箱优化场景优化效果：某游戏业务集群释放nodes 10个（占比13%）CPU775core（占比13.56%）MEM2.32TB（占比13.67%）集群规模：76个nodes，730个pods 其中427个pods有约束（亲和、反亲和、是否允许迁移）基于强化学习提升适应性 04打破场景边界运维大模型应用掉线分析场景探索 •提供分析工具：为LLMAgent提供分析工具，例如智能异常检测或维度下钻•Prompt工程：通过提示模板帮助LLMAgent具象化每一步的任务•自动代理：LLMAgent调用分析工具，收集结果，并规划下一步的分析方向•结果生成：分析结束，总结工具使用LLM进行结果生成基于LLM分析掉线原因 LLMAgent调用工具 LLM-Agent可以根据语义调用外部工具，并且生成调用参数错误的思考 G O P S全球运维大会2 0 2 3 ·上海站开放运维联盟高效运维社区DevOps时代荣誉出品

点击免费查看完整报告

海量异构业务下的AIOps落地要点实践

AIOps落地要点实践

AIOps建设挑战

打破数据边界

打破算法边界

打破场景边界

关键数据与案例

研究结论

你可能感兴趣

业务架构演进过程中异构数据库的高效运维探索实践 - 赖坤炽

腾讯游戏SRE在复杂异构业务中的云原生服务实践

01-金融级系统海量流量下的高可用架构实践-康杨

海量数据下的OLAP实践_蚂蚁集团

AIOPS语义级日志异常检测在证券行业的探索与实践 - 李进武

04华为云海量规模下故障定界实践--吴振华

任志强-大模型Agent在AIOps运维场景的实践

2024年海量异构电力电子设备标准化电磁暂态建模技术报告

阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹

基于AIops的智慧运营大脑探索与实践