AI智能总结
张静京东科技 京 东 科 技A I O p s整 体 能 力 目录 异 常 检 测 与 智 能 预 测 实 践 多 场 景 根 因 定 位 实 践 京 东 运 维 大 模 型 探 索 应 用 智能运维整体能力 业务可观测性:AI赋能运维监控,智能化故障发现与根因定位,快速感知业务健康度,提升运维效率和问题修复效率 故障定位 故障发现 ü多种固定位算法策略灵活组合,基于APM调用链扫描挖掘故障节点关联性ü通过NLP日志模板提取技术,基于知识图谱快速定位故障,做到故障发生时,扫描真正根因,输出根因报 ü经验平台化,减少对老专家经验依赖;ü上下穿透,一站式无需分层分别排查ü无阈值监控减少误报,避免漏报ü应急处理预案化、提升效率 告系统稳定性:基于机器学习的磁盘/表空间预测提高资源利用率,基于AI算法的硬盘故障预测,降本增效 磁盘/表空间趋势预测 硬件故障预测 ü依托京东大数据,利用机器学习、深度学习算法,对数据库磁盘空间、表空间以及内存未来使用趋势预测,大促容量预测快速调度,降本增效,精细化运营 ü标签数据不足够的PULearning半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;通过时空数据关联增强feature,输入给时间注意力模型,进而提升硬盘故障预测准确性。 技术底座 人工智能 大数据 知识图谱 ü数据挖掘/机器学习/强化学习算法ü内部复杂场景训练调优,积累大量负样本标记ü专业人员及京东AI团队支持 ü京东大数据同款能力,专业、可扩展能力强ü日志处理,实时、海量存储,也可复用客户资源 ü完整度高,覆盖新老设备和应用,一张图支撑所有业务ü大量内部经验和规则沉淀ü专业图计算能力加持 智能运维Themis平台:核心功能 ①指标异常检测 ②智能文本分析 ③故障定位 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。 基于运维专家知识和算法融合生成式智能故障诊断方案,内置日常业务依赖的应用、主机、容器、宿主机、缓存、数据库、ES、KAFKA、K8S及网络等40+智能故障定位场景。通过AI训练,生成精通运维全场景技术的智能诊断专家,能够在复杂业务场景中快速定位故障。 通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。 将运维领域的知识语料与大模型结合,训练生成式运维预训练大模型,提升运维专家排障可迁移 海量日志处理,AI算法实时聚类分析 集中管理监控指标,AI算法智能化检测分析 感谢大家观看