登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
04华为云海量规模下故障定界实践--吴振华
信息技术
2023-06-06
ArchSummit北京2023|全球架构师峰会
小酒窝大门牙
华为云海量规模下故障快速定界实践
可观测性的定义与挑战
定义
:可观测性通过指标、日志等数据了解系统状态,检测故障模式,并主动发现系统内部问题,包含排错、剖析、依赖分析等功能。
挑战
:系统复杂、环境动态、依赖关系多,需快速定位故障并恢复。
对比
:传统监控 vs 可观测性,可观测性更注重主动发现和根因分析。
华为云可观测性平台设计
平台层次
:数据采集接入层、实时计算存储层、数据关联分析层、智能分析层、数据展示层。
核心能力
:标准化数据模型、统一监控元数据、高维度时序数据处理、智能故障根因分析。
平台架构
:CloudScope统一可观测性底座,支持基础设施、网络、业务等多维度监控。
关键技术
:OpenTelemetry生态兼容、SPI查询分析服务、场景化监控平台能力。
华为云故障快速定界实践
问题定义
:通过指标和症状定义个体和集群异常。
症状发现
:基于单节点和多节点实时聚合发现集群异常,比传统方法更快速。
根因定位
:通过资源依赖、时间窗告警、日志指标关联分析快速定位根因。
预防关系
:基于依赖预警和多维指标快速定界,实现容灾预案和自愈恢复。
案例实践
:海量实例下立体依赖网快速定界,通过硬件监控、网络异常、流量下跌等指标实现故障快速定位。
可观测性未来与展望
发展趋势
:从单点监控到一体化监控,向智能化、标准化方向发展。
应用场景
:覆盖监控设计、开发测试、灰度现网、软件生命周期等全流程。
角色场景
:面向BOSS/CXO、运维值班、产品经理、研发、测试、安全等不同角色提供定制化监控能力。
技术演进
:从监控到可观测性,再到智能化监控,实现故障预判、流量预测等功能。
你可能感兴趣
基于海量应用日志交易故障的快速定位实践报告
商贸零售
北京农商银行
2024-07-03
01-金融级系统海量流量下的高可用架构实践-康杨
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
海量数据下的OLAP实践_蚂蚁集团
商贸零售
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09
海量异构业务下的AIOps落地要点实践
商贸零售
蓝鲸AIOps平台
2023-04-29
9-4 电商场景下的有效干预策略实践 - 吴梓华 ⼤淘宝⽤户增⻓ 数据科学
商贸零售
DataFunSummit2022:数据科学在线峰会
2022-06-13