登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
04华为云海量规模下故障定界实践--吴振华
信息技术
2023-06-06
ArchSummit北京2023|全球架构师峰会
小***
AI智能总结
查看更多
华为云海量规模下故障快速定界实践
可观测性的定义与挑战
定义
:可观测性通过指标、日志等数据了解系统状态,检测故障模式,并主动发现系统内部问题,包含排错、剖析、依赖分析等功能。
挑战
:系统复杂、环境动态、依赖关系多,需快速定位故障并恢复。
对比
:传统监控 vs 可观测性,可观测性更注重主动发现和根因分析。
华为云可观测性平台设计
平台层次
:数据采集接入层、实时计算存储层、数据关联分析层、智能分析层、数据展示层。
核心能力
:标准化数据模型、统一监控元数据、高维度时序数据处理、智能故障根因分析。
平台架构
:CloudScope统一可观测性底座,支持基础设施、网络、业务等多维度监控。
关键技术
:OpenTelemetry生态兼容、SPI查询分析服务、场景化监控平台能力。
华为云故障快速定界实践
问题定义
:通过指标和症状定义个体和集群异常。
症状发现
:基于单节点和多节点实时聚合发现集群异常,比传统方法更快速。
根因定位
:通过资源依赖、时间窗告警、日志指标关联分析快速定位根因。
预防关系
:基于依赖预警和多维指标快速定界,实现容灾预案和自愈恢复。
案例实践
:海量实例下立体依赖网快速定界,通过硬件监控、网络异常、流量下跌等指标实现故障快速定位。
可观测性未来与展望
发展趋势
:从单点监控到一体化监控,向智能化、标准化方向发展。
应用场景
:覆盖监控设计、开发测试、灰度现网、软件生命周期等全流程。
角色场景
:面向BOSS/CXO、运维值班、产品经理、研发、测试、安全等不同角色提供定制化监控能力。
技术演进
:从监控到可观测性,再到智能化监控,实现故障预判、流量预测等功能。
你可能感兴趣
基于海量应用日志交易故障的快速定位实践报告
信息技术
北京农商银行
2024-07-03
01-金融级系统海量流量下的高可用架构实践-康杨
金融
ArchSummit北京2023|全球架构师峰会
2023-06-06
海量数据下的OLAP实践_蚂蚁集团
信息技术
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09
海量异构业务下的AIOps落地要点实践
蓝鲸AIOps平台
2023-04-29
9-4 电商场景下的有效干预策略实践 - 吴梓华 ⼤淘宝⽤户增⻓ 数据科学
商贸零售
DataFunSummit2022:数据科学在线峰会
2022-06-13