登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹
信息技术
2023-06-06
ArchSummit上海2023|全球架构师峰会
徐红金
阿里云大数据计算平台基于AIOps的根因定位实践
阿里云大数据运维背景
阿里灵杰
:阿里云大数据计算平台,包括MaxCompute、Flink版实时数仓、Hologres等。
阿里云ABM运维中台
:负责大规模架构复杂的核心业务,面临效率、稳定性、成本等挑战。
智能运维AIOps
:应对海量多源异构数据,要求实时性。
大数据运维中的根因定位
业务价值
:缩短问题恢复时间(MTTR),保障SLA(服务等级协议)。
问题定义
:根因定位涉及维度下钻、根因分类、因果推断,核心挑战包括庞大搜索空间、特征构建、因果图构建和推断。
普遍性难点
:数据来源和类型复杂、指标间关联关系复杂、标注样本数量少、性能和实时性要求高、全新根因类型或表现形式、专家经验与模型能力结合。
阿里云根因定位实践
案例1:多维数据下钻分析
问题
:服务整体流量下跌,需定位具体维度(用户/机房)。
难点
:如何提升性能和量化维度是根因的可能性。
解决方案
:DrillUp下钻分析框架,通过显著度、惊喜度、贡献度量化维度,自动选择最优搜索方向,快速剪枝,高效数据结构(BitMap)。
案例2:计算平台故障根因类型定位
问题
:定位故障发生的模块和具体原因(如Flink、MaxCompute、Hologres等)。
特征构建
:事件指标、日志、拓扑,采用NLP、层次聚类、日志聚类、维度等方法。
样本积累
:故障演练数据增强。
定位模型
:基于知识的层次贝叶斯网络(KHBN),结合指标层因果关系构建和根因分类。
CloudRCA根因定位框架
:整合多源异构数据,融合专家知识和数据智能,可应对全新故障类型,可迁移的通用学习框架。
案例3:网络故障根因类型定位
问题
:定位根因类型或组合。
特征构建
:时序特征、方位特征,利用归因模型拓展缺失特征。
数据增强
:标签拓展、时间戳对齐、多维时间序列相似度计算。
定位模型
:融合模型分类、规则生成、归因、因果图模型(XGBoost、Skope-rules、Shapley value、PageRank、随机游走)。
NetRCA根因定位框架
:充分挖掘时序特征和特征间关联关系,充分利用未打标数据,集成模型兼顾准确性和可解释性。
根因定位背后的算法和工程链路
根因定位算法工具箱
:异常检测、日志聚类、因果推断等。
AIOps背后的数据和工程链路
:数据采集(指标、事件、日志、拓扑关系)、运维中台(计算服务、算法服务)、数据存储(指标、告警、操作、日志)、系统异常根因定位、稳定性SLA指标等。
总结与展望
总结
:AIOps通过维度下钻、根因分类、因果推断等技术,实现问题发现和恢复,缩短MTTR,保障SLA。主要挑战包括数据复杂性、性能要求、样本数量、全新根因类型等,解决方案包括时序分析、日志分析、归因模型拓展、因果分析剪枝、故障演练数据增强等。
展望
:数据来源、特征工程、样本积累、模型构建等方面持续优化,云原生数智运维平台(SREWorks)将陆续输出部分算法服务,关注实时性、混沌工程、数据增强、推断能力、可解释性等方向。
你可能感兴趣
张海瑞 -基于 Flink 的实时计算平台在新能源充电行业实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
阿里云弹性计算智能化监控诊断的探索和实践-张尤
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
张耀东- Kyuubi 在小米大数据平台的应用实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
2-2 基于云上对象存储的网易大数据平台应用实践
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
5-2 基于大数据及机器人对话技术在综合理财平台下的应用实践 - 卢易 陆金所大数据平台负责人
商贸零售
DataFunSummit2022:数据科学在线峰会
2022-06-13