登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
4-1 可观测系统中的告警管理实践 - 王金良_睿象云
信息技术
2022-09-15
DataFunSummit2022:数据治理在线峰会
M***
AI智能总结
查看更多
可观测系统中的告警管理实践
01 可观测性的整体生态
可观测性概念
:指对系统内部状态的测量、观察能力,也称为可维、可测、可控能力。
三大支柱理论
:可观测性包含指标(Metrics)、追踪(Tracing)、日志(Logging)三大支柱,分别对应数据获取、分析和呈现。
解决方案
:每个支柱都有成熟的解决方案,如 Prometheus、Skywalking、ELK 等。
市场发展
:全球 IT 运维市场规模持续增长,2020 年达到 2690 亿元,预计 2023 年达到 3236.4 亿元。国内市场潜力巨大,年客单价达数百万元。
历史趋势
:从 1980 年代到 2020 年代,IT 运维领域经历了从控制监控管理到 ITOM 需求层次运营的演变,诞生了数十家百亿美金公司。
02 告警在可观测系统中的价值
可观测性定位
:可观测性是描述系统属性的范畴,是能力的体现,而非具体工具,需要运维人员具备系统理解能力。
告警作用
:告警是 IT 运维信号总量的金字塔尖,引导开发人员找到问题答案,但需要人工进一步分析。
告警管理成熟度模型
:
L0:有监控无告警
:被动感知系统故障,效率低下。
L1:告警分散管理
:任务分派和通知手段单一,管理效率低下。
L2:告警统一管理
:实现告警统一分派和通知,降低告警处理量。
L3:告警智能管理
:自动识别告警类别,压缩降噪。
L4:根因告警定位
:自动推荐根因告警,定位故障根因。
L5:告警自愈
:自动恢复系统故障,实现无人值守。
03 可观测系统中告警管理的核心功能
睿象云智能告警平台(Cloud Alert)
:支持 SaaS 和本地化部署,收集事件类数据、IT 配置信息和知识数据,实现智能运维。
核心能力
:
告警整合
:连接 10 大类近 100 种 DevOps 工具和平台。
告警智能化处理
:
模式发现
:基于规则和人工智能算法,分类、聚合、降噪告警。
告警处理
:数据格式化、自定义字段提取和内容丰富。
分派和协作(On-Call Management)
:任务分派、升级、转发、协作、排班等功能,确保信息高效协同。
知识库和知识图谱
:COKG(Chinese Operation Knowledge Graph)包含 30 多万个实体和 400 万个实体关系,应用于实际场景。
分析及可观测事件
:多维度实时分析事件,洞察业务状态,形成事件管理闭环。
04 智能告警管理最佳实践
德电中国案例
:
挑战
:监控工具多样,告警分散,告警量大,缺乏自动升级和响应机制,根因分析困难。
解决方案
:通过智能事件平台实现告警接入和存储,去重降噪归类,及时分派和推送,推荐根因。
成果
:告警量减少 98%,告警送达率 100%,故障定位时间缩短 80%。
某国有综合性投资集团案例
:
挑战
:监控工具告警分散,互联网区核心业务系统缺乏监控,缺乏可视化大屏展示。
解决方案
:引入集中化告警及可视化运维理念,整合告警信息,抽取数据指标,实现运维数据可视化。
成果
:通过多层次、多维度的展现视图直观呈现信息化环境和工作信息,面向不同用户构建管理视图。
客户行业分布
科技、互联网、IT 服务、游戏、传媒、保险、金融、制造、零售
你可能感兴趣
基于大模型驱动的云网全景可观测系统建设实践
信息技术
国泰君安证券
2024-09-20
混合云全景可观测技术架构探索和实践_王肇刚
信息技术
ArchSummit深圳2022|全球架构师峰会
2022-07-19
大型企业系统可观测性的最佳实践 - 林亚ILYA MOCHALOV
信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站
2024-10-21
面向一云多芯的智能云网全景可观测系统建设
电子设备
国泰君安证券
2024-09-06
人工智能创新中的可观测性:应用趋势、需求与最佳实践
信息技术
BARC
2025-03-20