登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-1 可观测系统中的告警管理实践 - 王金良_睿象云
信息技术
2022-09-15
DataFunSummit2022:数据治理在线峰会
Marco.M
可观测系统中的告警管理实践
01 可观测性的整体生态
可观测性概念
:指对系统内部状态的测量、观察能力,也称为可维、可测、可控能力。
三大支柱理论
:可观测性包含指标(Metrics)、追踪(Tracing)、日志(Logging)三大支柱,分别对应数据获取、分析和呈现。
解决方案
:每个支柱都有成熟的解决方案,如 Prometheus、Skywalking、ELK 等。
市场发展
:全球 IT 运维市场规模持续增长,2020 年达到 2690 亿元,预计 2023 年达到 3236.4 亿元。国内市场潜力巨大,年客单价达数百万元。
历史趋势
:从 1980 年代到 2020 年代,IT 运维领域经历了从控制监控管理到 ITOM 需求层次运营的演变,诞生了数十家百亿美金公司。
02 告警在可观测系统中的价值
可观测性定位
:可观测性是描述系统属性的范畴,是能力的体现,而非具体工具,需要运维人员具备系统理解能力。
告警作用
:告警是 IT 运维信号总量的金字塔尖,引导开发人员找到问题答案,但需要人工进一步分析。
告警管理成熟度模型
:
L0:有监控无告警
:被动感知系统故障,效率低下。
L1:告警分散管理
:任务分派和通知手段单一,管理效率低下。
L2:告警统一管理
:实现告警统一分派和通知,降低告警处理量。
L3:告警智能管理
:自动识别告警类别,压缩降噪。
L4:根因告警定位
:自动推荐根因告警,定位故障根因。
L5:告警自愈
:自动恢复系统故障,实现无人值守。
03 可观测系统中告警管理的核心功能
睿象云智能告警平台(Cloud Alert)
:支持 SaaS 和本地化部署,收集事件类数据、IT 配置信息和知识数据,实现智能运维。
核心能力
:
告警整合
:连接 10 大类近 100 种 DevOps 工具和平台。
告警智能化处理
:
模式发现
:基于规则和人工智能算法,分类、聚合、降噪告警。
告警处理
:数据格式化、自定义字段提取和内容丰富。
分派和协作(On-Call Management)
:任务分派、升级、转发、协作、排班等功能,确保信息高效协同。
知识库和知识图谱
:COKG(Chinese Operation Knowledge Graph)包含 30 多万个实体和 400 万个实体关系,应用于实际场景。
分析及可观测事件
:多维度实时分析事件,洞察业务状态,形成事件管理闭环。
04 智能告警管理最佳实践
德电中国案例
:
挑战
:监控工具多样,告警分散,告警量大,缺乏自动升级和响应机制,根因分析困难。
解决方案
:通过智能事件平台实现告警接入和存储,去重降噪归类,及时分派和推送,推荐根因。
成果
:告警量减少 98%,告警送达率 100%,故障定位时间缩短 80%。
某国有综合性投资集团案例
:
挑战
:监控工具告警分散,互联网区核心业务系统缺乏监控,缺乏可视化大屏展示。
解决方案
:引入集中化告警及可视化运维理念,整合告警信息,抽取数据指标,实现运维数据可视化。
成果
:通过多层次、多维度的展现视图直观呈现信息化环境和工作信息,面向不同用户构建管理视图。
客户行业分布
科技、互联网、IT 服务、游戏、传媒、保险、金融、制造、零售
你可能感兴趣
基于大模型驱动的云网全景可观测系统建设实践
商贸零售
国泰君安证券
2024-09-20
混合云全景可观测技术架构探索和实践_王肇刚
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19
大型企业系统可观测性的最佳实践 - 林亚ILYA MOCHALOV
商贸零售
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站
2024-10-21
面向一云多芯的智能云网全景可观测系统建设
商贸零售
国泰君安证券
2024-09-06
人工智能创新中的可观测性:应用趋势、需求与最佳实践
商贸零售
BARC
2025-03-20