您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:刘晓辉-运维平台可观测与数字孪生的落地实践_加水印 - 发现报告

刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

AI智能总结
查看更多
刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

刘晓辉运维开发团队负责人 刘晓辉 应用运维开发团队负责人,近年来带领团队在公司内与行业内与合作伙伴共同完成多个运维开发项目,推动公司内应用运维平台与相关团体标准建设。当下着眼于可观测与数字孪生在运维平台的实战并取得了部分成果,未来计划紧跟技术风口,在智能运维和大模型领域寻找可能的运维落地场景并尝试实践验证。 01关于应用运维的问题与思考 目录 可观测监控 数字孪生 04未来展望 关于应用运维的问题与思考 运维痛点 应用运维的主要工作 运维平台建设路径 特征指标:工具化率自动化(Automation) 特征指标:无智能化(IntelligentOperation) 应用人工智能、机器学习等技术,使运维平台能够自我优化、预测故障和自动解决问题 利用脚本、工具和自动化软件来执行重复性的运维任务,减少人工干预。 运维平台整体架构方案 运维平台整体架构方案 监控整体架构方案 监控三要素的能力对可观测能力的支持-日志和指标 基于审计日志的调用链路分析 审计日志是开发规范中必须要打印的日志,在程序入口和出口分别打印,包括唯一ID,进出目的,错误响应,系统耗时等内容 基于审计日志的调用链路分析 基于生成对抗网络的无监督时间序列异常检测 应对复杂数据模型、低质数据(缺失值和噪音等问题)的无监督异常检测技术 l1-数据预处理 l数据标准化[-1,1]l缺失值预处理l滑动窗口处理,构建X l2-模型训练 l组成:编码器e、解码器d、原始空间判别器D、隐空间判别器Cl生成器和判别器对抗学习 l3-异常检测 l一个经过预处理的样本传递给异常检测模块,通过编码器和解码器将序列重构到原始空间,利用原始空间判别器将重构序列与原始样本比较,获得异常分数,如果异常分数高于预设阈值,则该样本被判别为异常样本 l4-应用情况 l本算法对部分潜在问题的提示优于基线算法 多尺度时序异常检测方法研究及其在流式场景下的应用 应对时间序列的概念漂移问题的无监督异常检测方法 1.创新点•小波变换降低时序复杂性得到多尺度时序表示 •图模块建模多尺度下变量间的依赖性•流式场景下的多尺度蒸馏和记忆遗忘机制2.模型构成 •多尺度分解-生成模块:捕获不同频率尺度下的细微异常 •多尺度图模块:建模多尺度下的变量依赖性•多尺度知识蒸馏模块:简化网络结构,减少计算和内存开销•记忆遗忘模块:快速感知概念漂移3.应用领域 •通过对复杂时序数据的多尺度分析,识别系统运行过程中潜在的 异常模式和故障,预防事故发生。 数字孪生的对象与建设思路 数字孪生(DigitalTwin)数字孪生是物理对象、系统或过程的虚拟表示。它是一个动态的软件模型,可以模拟物理实体的行为和性能。 用于模拟和预测物理实体在现实世界中的行为。 进行测试和优化,而无需对实际系统进行更改。在IT运维中,数字孪生可以用于模拟系统变更的影响,而可观测性平台则用于监控这些变更在实际系统中的表现。 数字孪生的初步具体实现 基于诊断和快照的根因分析 可观测和数字孪生的结合 AIAgent和大模型在运维过程过程中的可能应用场景 智能监控 根因分析 利用各种算法对系统中各类指标的阈值进行智能推定,提升检测的准确性 利用自然语言处理能力,从数据中提取信息,调度Agent帮助进行根因分析 知识管理 人机交互 利用信息整合和推理能力,提升知识管理的系统性和知识输出的精准性 利用自然语言理解和生成能力提升人机交互的流畅性自然度 感谢大家观看