您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:基于 Prometheus 和 Chaos Mesh 的常态 - 发现报告
当前位置:首页/其他报告/报告详情/

基于 Prometheus 和 Chaos Mesh 的常态

2023-03-09网易一***
基于 Prometheus 和 Chaos Mesh 的常态

张慧网易伏羲私有云保障负责人云原生社区杭州站核心负责人Chaos Mesh 布道师基于Prometheus 和Chaos Mesh 的常态化故障演练网易数字+大会 网易数字+大会目录故障常态化•什么是故障•什么是故障常态化•为什么要做故障常态化故障自动化验证•基于k8s和Prometheus实现故障自动化验证故障自动化注入•介绍混沌工具常态化故障演练•实现故障演练常态化,提升系统稳定性网易数字+大会 故障常态化网易数字+大会 网易数字+大会010203故障常态化故障随时可能发生!Github网易数字+大会 网易数字+大会010203故障常态化什么是故障常态化•放大故障发生的概率•使系统不间断接受故障检验•自动化的故障演练网易数字+大会 网易数字+大会010203故障常态化故障常态化流程图恢复系统故障系统发生异常系统状态正常网易数字+大会 网易数字+大会010203故障常态化为什么做故障常态化•持续不断做故障演练•提高系统稳定性•逐步闭环故障带来的影响网易数字+大会 网易数字+大会010203故障常态化为什么做故障常态化网易数字+大会 故障自动化注入网易数字+大会 网易数字+大会010203故障自动化注入混沌工程的演进网易数字+大会 网易数字+大会010203故障自动化注入可能的故障类型磁盘故障内存故障网络故障内核故障节点故障网易数字+大会 网易数字+大会010203故障自动化注入ChaosMesh架构•用户输入、观测•监听资源变化,进行注入/恢复•在具体节点上进行故障注入网易数字+大会 故障自动化验证网易数字+大会 网易数字+大会010203故障自动化验证如何进行自动化验证1.提升系统可观测性(Logging, Tracing, Metrics)2.故障发生时,检查系统指标是否符合预期3.故障恢复后,检查系统指标是否恢复正常网易数字+大会 网易数字+大会010203故障自动化验证基于Prometheus和AlertManager实现Metrics的自动化验证网易数字+大会 常态化故障演练网易数字+大会 网易数字+大会010203常态化故障演练架构图网易数字+大会 网易数字+大会010203常态化故障演练举个例子●假设○某多副本无状态应用,应当拥有容错的能力○在杀掉一部分节点后,应当能继续提供服务○可能造成的影响:QPS下降,出现部分服务端错误...●运行实验○使得部分节点无法工作(注入异常方法:ChaosMesh)●观察和检验○监控指标的变化符合预期(自动化验证:Prometheus )○节点重启后,监控指标恢复正常网易数字+大会 网易数字+大会常态化故障演练code5xx•根据项目指标,容忍一定的5xx网易数字+大会 网易数字+大会常态化故障演练基于Chaos Mesh 和Prometheus 实现常态化故障演练•对目标服务做故障注入010203网易数字+大会 网易数字+大会常态化故障演练基于Chaos Mesh 和Prometheus 实现常态化故障演练•对目标服务做故障注入•系统指标进行验证010203网易数字+大会 网易数字+大会常态化故障演练基于Chaos Mesh 和Prometheus 实现常态化故障演练•对目标服务做故障注入•系统指标进行验证•恢复系统故障010203网易数字+大会 网易数字+大会常态化故障演练基于Chaos Mesh 和Prometheus 实现常态化故障演练•对目标服务做故障注入•系统指标进行验证•恢复系统故障•常态化执行010203网易数字+大会 网易数字+大会常态化故障演练Inthefuture•增加对Logging 的验证•增加对Tracing的验证•增加更多便捷的故障恢复hook•...网易数字+大会 THANKS网易数字+大会