AI智能总结
张静京东科技 张静 京东科技智能运维算法资深经理 智能运维发明专利60项、IEEE国际会议论文收录10篇。 带领团队致力于京东智能运维算法迭代,应用于京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破。 •2021数据技术嘉年华《解密StarDB国产数据库智能运维的核心算法》•ArchSummit2022全球架构师峰会智能运维专题演讲•2023DAMS峰会智能运维专题演讲•2023Gdevops峰会智能运维专题演讲•2023AiDDAI+软件研发数字峰会-智能运维专题•参与撰写中国信通院《云计算智能化运维(AIOps)能力成熟度模型》白皮书,第1部分通用能力要求、第2部分系统与工具技术要求。 京 东 科 技A I O p s整 体 能 力 目录 异 常 检 测 与 智 能 预 测 实 践 多 场 景 根 因 定 位 实 践 京 东 运 维 大 模 型 探 索 应 用 京东科技AIOps整体能力 从传统到智能运维的演进 智能运维体系建设趋势 由单一能力向体系化场景演进 ü建立统一的智能运维管理平台,实现以业务为中心的监控管理体系,提高信息部门运维管理水平和IT系统运行保障能力 可观测性和根因分析辅助决策 ü通过数据分析和AI算法,对告警进行溯源;基于知识图谱的根因定位,以及异常检测,及早发现风险,辅助运维决策 由被动响应向主动式、智能化 ü基于专家规则、统计分析、机器学习,对风险进行汇总、溯源、管理和处置,以及基于混沌工程进行稳定性的主动管理 体:达到全方位智能化,融合混沌工程,实现稳定性主动管理,提高系统健壮性和可用性 点:实现针对某个具体运维场景的能力建设,如应用监控、日志分析 面:形成运维域AIOps平台,如巡检、故障预测、异常发现、根因定位、故障自愈等能力 线:形成一类运维场景的通用AIOps能力,如业务指标的异常检测和根因定位场景 智能运维整体能力 业务可观测性:AI赋能运维监控,智能化故障发现与根因定位,快速感知业务健康度,提升运维效率和问题修复效率 故障定位 故障发现 ü多种固定位算法策略灵活组合,基于APM调用链扫描挖掘故障节点关联性ü通过NLP日志模板提取技术,基于知识图谱快速定位故障,做到故障发生时,扫描真正根因,输出根因报告 ü经验平台化,减少对老专家经验依赖; ü上下穿透,一站式无需分层分别排查 ü无阈值监控减少误报,避免漏报 ü应急处理预案化、提升效率 系统稳定性:基于机器学习的磁盘/表空间预测提高资源利用率,基于AI算法的硬盘故障预测,降本增效 磁盘/表空间趋势预测 硬件故障预测 ü依托京东大数据,利用机器学习、深度学习算法,对数据库磁盘空间、表空间以及内存未来使用趋势预测,大促容量预测快速调度,降本增效,精细化运营 ü标签数据不足够的PULearning半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;通过时空数据关联增强feature,输入给时间注意力模型,进而提升硬盘故障预测准确性。 技术底座 人工智能 大数据 知识图谱 ü数据挖掘/机器学习/强化学习算法ü内部复杂场景训练调优,积累大量负样本标记ü专业人员及京东AI团队支持 ü京东大数据同款能力,专业、可扩展能力强ü日志处理,实时、海量存储,也可复用客户资源 ü完整度高,覆盖新老设备和应用,一张图支撑所有业务ü大量内部经验和规则沉淀ü专业图计算能力加持 智能运维Themis平台:核心功能 ②智能文本分析 ①指标异常检测 ③故障定位 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。 基于运维专家知识和算法融合生成式智能故障诊断方案,内置日常业务依赖的应用、主机、容器、宿主机、缓存、数据库、ES、KAFKA、K8S及网络等40+智能故障定位场景。通过AI训练,生成精通运维全场景技术的智能诊断专家,能够在复杂业务场景中快速定位故障。 通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。 将运维领域的知识语料与大模型结合,训练生成式运维预训练大模型,提升运维专家排障可迁移性 海量日志处理,AI算法实时聚类分析 资质证书 拥有60余项境内智能运维发明专利,拥有10项智能运维IEEE国际论文。 资质证书 第1篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9680175第2篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9762449第3篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9778305第4篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9858500第5篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9832400第6篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/9904207第7篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/10072770第8篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/10075876第9篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/10194171第10篇ieee-智能运维方向论文IEEE Xplore检索地址:https://ieeexplore.ieee.org/document/10393131 资质证书 申请智能运维发明专利60余项,信通院云系统稳定安全运行-可观测性优秀案例 G O P S全 球 运 维 大 会 暨X O p s技 术 创 新 峰 会2 0 2 4·北 京 站 异常检测与智能预测实践 指标异常检测 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东历年大促运维经验沉淀,覆盖支付交易、线下外单支付、K8s核心组件、域名等监控场景故障预警,开箱即用,快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持 1、单指标异常检测 ü单指标异常检测适用于所有的时序性数据的异常识别,比常规固定阈值监控更加精确,减少误报和漏报 2、多指标异常检测 ü多指标异常检测适用于单指标间的关联分析,得出不同指标变化影响及严重程度,下钻分析深层次的异常 运维日志NLP分析 业务日志模版提取,及时捕捉线上未知的业务异常问题 ü通过Bert预训练等NLP技术,对历史全量日志全貌聚类分析,在线实时匹配发现已知类问题的日志量变化,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,并可及时捕捉到新的日志模式,保证线上系统稳定性 运维日志NLP分析:K8s场景 通过日志分析覆盖K8S核心组件(亿级别日志量/天)GC调用docker有问题、组件健康度异常、孤儿pod问题、POD存储挂载失败、POD调度失败、POD网络分配异常等多维度故障场景,提升K8S核心组件监控能力。 K8S常见故障 孤儿pod问题 POD网络延迟 POD网络分配异常 POD存储挂载失败 日志模版举例 运维日志NLP分析:Redis场景 案例:(2022年10月20日) 发现问题:应用程序调用集群,往集群节点打印日志消息,导致日志量突增。 解决办法:关闭线上程序的调试模式 故障排查过程: Step3:联系研发同学发现线上程序开启了调试模式,应用程序调用集群,往集群节点打印日志消息,导致日志量突增。 运维日志分析场景 大数据日志场景 mysql日志场景 Redis日志场景 ①MemStore数据刷盘操作延迟②集群处理某个表操作慢③堆内存适应率超过最大配额④发生了GC内存回收⑤数据块大小超过配额导致缓存失败 ①AOF刷盘阻塞②redis主从同步③redis主从增量同步④redis主从切换⑤redis配置变更⑥redis节点变更 ①主从异常②连接异常③查询异常④数据文件⑤系统问题⑥用户权限⑦版本问题 故障预测 场景一: 依托京东历年磁盘数据,利用大规模数据挖掘、机器学习和人工智能技术,学习硬盘历史故障数据,预测硬盘、内存未来故障发生时间点,每7天、14天对全集团几十万台服务器的硬盘和内存进行巡检,提升备件和修复响应时间,缩短修复时间,预测结果推荐核心业务做提前调度或者修复,提前止损,降低故障处置、复盘等成本。落地成效:硬盘预测准确率达96.3%,处于业界领先水平。 故障预测 场景二: 通过神经网络模型与专家知识融合训练生成覆盖数据库磁盘/表空间预测、SSD未来使用寿命预测等多场景算法组件,实现关键设施运行模式的精准优化,助力精细化运营。 多场景根因定位实践 根因定位 基于APM调用链AI模型扫描,挖掘故障节点关联性,定位根因 根因定位:算法学件 运维日志预训练模型 蒙特卡洛树根因定位 智能基线 因果推断算法 告警共性分析算法 相似度计算 根因定位:APM调用链触发根因分析 京东运维大模型探索应用 京东运维大模型 运维专家语料+丰富的可观测指标+Agent执行能力+GPT=京东运维大模型 京东运维大模型 京东运维大模型 运维大模型应用场景二:能力工具agent集成,构建生成式模型, 运维大模型应用场景一:日常运维运营模型,构建知识库,基于RAG (检索增强生成)框架,通过粗排、精排NLP算法减少“大模型幻觉”可控的自动化执行任务 规则集成与融合 G O P S全 球 运 维 大 会 暨X O p s技 术 创 新 峰 会2 0 2 4·北 京 站 高效运维社区DevOps时代 感谢大家观看