[网易]：稳保护航，助力数字原生企业新发展

热门搜索：

稳保护航，助力数字原生企业新发展

2023-11-22网易王***

主讲人：侯诗军网易数帆解决方案专家稳保护航，助力数字原生企业新发展云原生时代下的稳定性保障体系建设到2024年，由于采用了微服务、容器、动态编排和DevOps等技术，新增的生产级云原生应用在新增应用的占比将从2020年的10%增加到 60%。到 2025 年，超过一半的中国 500 强企业将成为软件生产商，超过 90%的应用程序为云计算应用程序Of all digital operations will be deployed on cloud-native platforms by 2025Source: Gartner到2024年，由于采用了微服务、容器、动态编排和DevOps等技术，新增的生产级云原生应用在新增应用的占比将从2020年的10%增加到60%以上。到2025年，将超过一半的中国500强企业将成为软件生产商，超过90%的应用程序为云计算应用程序。低高高落地难度(涉及组织、流程、平台、架构的变革)微服务网格化零侵入快速接入多语言松耦合注册发现服务治理集中式单体架构多中心多活循序渐进、分步实施云原生网关高性能分布式认证鉴权插件扩展中间件云化运维自动化故障自恢复在线伸缩稳定性保障立体化监控风险预测根因分析AIOPS容器化平台无关弹性伸缩资源池化管理随着转型的不断深入，各种稳定性问题往往接踵而至！云原生化程度创新类业务系统、电商场景业务、互联网金融场景业务。支撑型业务系统，如市场和销售支撑、客户管理、资产管理。整合式共享、变化可控，计划性强，如工作流、渠道系统。核心业务系统，如证券交易系统、银行的资金相关账务系统、保险的理赔系统等。微服务化架构应用之间依赖关系错综复杂，单一节点问题可能会被无限放大，故障难以避免核心系统日常流量保持在高水位，并发请求量大、业务激增随机性强服务性能瓶颈难以分析，故障影响范围难以评估云原生架构下节点分布范围更广、数量更多，为日志采集、分析带来新挑战业务7*24小时在线，核心系统业务涉及民生，一旦故障社会影响恶劣高可用面对业务高峰、高峰期的压力，需要强大的熔断保护和弹性伸缩能力突发流量一旦出现故障，线上故障需精准定位，全链路追踪诊断，自动化恢复及排障故障诊断及快速恢复系统复杂难预测难分析流量冲击业务侧技术侧稳定性需求及预期升高稳定性保障难度升高 2021年12月7日AWS由于云服务容量问题导致网络拥塞和性能下降而宕机近4个小时。2022年7月29日，某专车出行APP发布通知称，因网络故障导致通讯受阻，出行平台暂时无法使用叫车服务，相关人员正在紧急抢修。2021年10月23日微软Azure云产品出现Windows虚拟机全球性故障，用户服务中断6个小时。2021年7月13日美国云计算公司Fastly出现长达1小时的服务故障，导致全球数千家政府、网站受到影响。2021年11月16日Google Cloud服务器由于网络配置问题造成负载均衡中断，引发全球宕机数小时，影响波及全球用户。2021年4月10日国内某云厂商由于其北京机房出现故障出现大面积宕机，持续3个小时。2023年10月23日，语雀服务宕机7个多小时。24日语雀官方公布了后续将加强观测、变更管控、多中心高可用架构进行优化改进。2020年10月1日，日本东京证券交易所在进行数据库变更操作时，错误调整系统时钟，导致了交易系统故障，当时整个交易活动停止。各类稳定性事件通常存在复杂度高、难以预测、不可控等现象，更多类似的问题，已经发生或即将到来。据不完全统计，2021年国内外云服务宕机事件达到20起以上，造成了巨大的生产事故与经济损失。传统监控方式更多的未知因素收集、分析和使用信息来观察一段时间内的运行进度，并且进行相应的决策管理的过程，监控侧重于观察特定指标。操作变更：人员误操作、变更失败、管理不善等代码缺陷：代码质量、程序逻辑、应用架构等故障等平台故障：业务依赖的平台硬件故障、网络故障等外部环境变化：外部访问流量突然变大导致的系统过载、公共卫生、自然灾害、社会安全等...... 2016年7月，国务院发布《国家信息化发展战略纲要》，提出根本改变核心关键技术受制于人的局面，形成安全可控的信息技术产业体系，电子政务应用和信息惠民水平大幅提高。2020年4月，国务院开展全国安全生产专项整治三年行动计划。聚焦在风险高隐患多、事故易发多发的煤矿、非煤矿山、交通运输、信息技术等9个行业领域，组织开展安全生产整治。2020年11月，中国人民银行发布《分布式数据库技术金融应用规范》JR/T 0205—2020，明确了金融数据的可用性要求。2021年6月，全国人大《中华人民共和国安全生产法》修订。加大对违法行为的惩处力度，进一步压实企业安全生产主体责任，进一步明确了各方面的安全生产责任、建立起了一整套比较完善的责任体系。2022年6月，工信部开展云服务稳定安全运行应急演练专项活动。工信部统一部署，联合信通院开展面向全国云服务运营商的云服务稳定运行应急演练专项行动。2023年10月，工信部、中央网信办、教育部、国务院国资委、中国人民银行、国家卫健委等六部门联合印发《算力基础设施高质量发展行动计划》，重点强调了定期开展巡查巡检，制定应急预案提高应急处置能力，对重要系统和数据建立热备双活机制，应用仿真灰度测试、混沌工程等新技术，发掘并消除信息系统潜在隐患。影响范围危害程度较小影响一般影响严重影响内部辅助管理第1级第2级第3级内部运营管理第2级第3级第4级公民、法人和其他组织的权益第3级第4级第5级国家稳定、金融秩序第4级第5级第6级等级RTORPO可用性3级≤24小时≤24小时每年非计划服务中断时间不超过4天，系统可用性至少达到99%4级≤4小时≤1小时每年非计划服务中断时间不超过10小时，系统可用性至少达到99.9%5级≤30分钟≈0每年非计划服务中断时间不超过1小时，系统可用性至少达到99.99%6级≤2分钟0每年非计划服务中断时间不超过5分钟，系统可用性至少达到99.999% 如果你不能度量它，你就无法改进它。--管理学大师彼得·德鲁克系统的稳定性，表示系统在遭受外界扰动偏离原来的平衡状态，而在扰动消失后系统自身仍有能力恢复到原来平衡状态的一种顽性。--《现代控制理论》 MTTR1分钟内发现、 5分钟内定位、 10分钟内解决MTTR 平均故障恢复时间，通过降低MTTR，提高MTBF，提高SLAMTBF：稳定MTBF：稳定MTTR：系统不稳定故障预防故障发现故障定位故障恢复故障改进事前：备战能力，故障预防事中：作战能力，统一指挥，恢复优先事后：改进能力，故障复盘与改进故障预防故障发现故障定位故障恢复故障改进故障演练全链路压测全链路压测根因分析引流回放立体化监控风险预见服务治理容灾切换故障复盘专家经验库运维诊断“业内常用MTBF和MTTR这两个关键指标来衡量稳定性 平均无故障工作时间（Mean Time Between Failure） 平均故障修复时间（Mean Time To Repair）稳定性保障体系降发生降低故障的发生率，支持应用建设“三高能力”，即高可用、高性能、高质量。降影响降低故障发生的影响范围，通过早感知、快定位、及止损点形成故障处理的闭环。接口治理服务治理熔断降级限流演练预案库专家巡检规则库预案管理强弱依赖管理根因分析风险预见故障演练预见算法安全风险容量风险风险预见性能风险高可用多活规划关键流程标准化持续巡检架构风险应急响应流程容错治理容灾恢复异常诊断规则引擎异常图谱关联分析日志/指标/链路多维拓扑无阈值告警错误码深度指标影响范围分析事件分析异常事件兜底自救流程改进项跟踪善后处理影响面分析故障特征改进建议“打疫苗”事前事中事后立体化监控经验入库规则引擎专家诊断经验库ChatGPT / AIOps“降影响”故障自愈“降发生”故障文化服务治理混沌工程全链路压测引流回放模糊测试服务治理建议兜底路由故障观测域故障演练域场景管理影子库管理录制管理压测模型全链路压测Mock管理报告管理混沌工程引流回放预案管理环境管理演练管理演练模版演练报告任务调度流量录制发压引擎数据隔离Diff测试流量ETL流量降噪服务运行域服务网格稳定性管控中间件稳定性管控容量巡检管控面组件巡检故障感知数据面组件巡检网格排障流量治理稳定性巡检巡检报告配置管理根因分析故障自愈监控告警应用多活同城主备同城双活异地多活公有云、私有云、VMware、OpenStack...异构环境X86/ARM容器平台 kubernetes云计算底座DB服务元数据库DDL语句预检查模块策划与执行模块任务调度模块稳定性检查模块执行与控制模块数据库变更管控根因分析运维诊断专家经验根因拓扑根因说明异常检测诊断触发器诊断能力管理诊断流水线诊断结果管理风险预见立体化监控容量预见性能预见可靠性预见ebpf采集多维拓扑指标深度关联深度指标安全预见观测见解故障观测域故障模拟能力【事前】降发生组件稳定性增强能力稳定性保障核心能力【事中】降影响【事前】降发生演练管理预案管理故障管理资源管理演练报告执行历史演练管理预案管理故障管理资源管理演练报告执行历史故障演练演练任务创建演练任务构造任务参数执行任务执行集创建执行集构造执行集参数执行集执行预案创建预案修改预案审批预案审计创建故障故障处理故障复盘故障改进故障结束环境管理演练模板资源容量管理场景管理创建演练报告编辑报告执行集记录123456包含故障发生前的预案及服务端迭代时的常规演练、故障发生后的故障管理覆盖故障演练的全生命周期场景。 0102030405深度指标eBPF 可以用于监控系统的 CPU、内存、磁盘和网络性能，从而帮助用户识别和解决性能瓶颈。性能分析eBPF 可以用于监控系统的运行状态，例如系统调用、进程间通信和内存分配，从而帮助用户诊断和解决故障。调试和故障排除eBPF 可以用于监控容器的运行状态，例如容器网络、存储和资源使用情况，从而帮助用户管理和优化容器化应用程序。容器监控eBPF 可以用于监控应用程序的运行状态，例如函数调用、系统调用和内存分配，从而帮助用户识别和解决应用程序性能问题。应用程序监控eBPF 技术可以使用 Linux 提提供的uprobe/USDT 的能力，可以实现运行时修改用户程序行为的能力。通过这种方式，可以对一些没有源码的应用/不方便进行修改的应用的特定函数进行插桩，从而获取到监控数据。编译型语言监控零埋点采集无侵入、性能损耗小、通用多协议支持支持http、Kafka、Redis、Dubbo、DNS、MySQL等应用层协议的自动监控底层网络监控Socket粒度的网络监控，支持TCP丢包、重传、时延等深度指标传统的监控数据对于问题诊断还是不太够的。通过利用 eBPF 能力扩充操作系统监控项，可以显著提升系统的观测能力，提升故障排查效率。主机资源及拓扑内核指标、网络、IO指标主机/内核容器/中间件ServiceMesh应用层业务层用户层云原生资源监控数据库、消息队列、分布式缓存等基础资源信息服务网格拓扑依赖关系业务观测指标前端性能监控【产品效果】服务依赖自动发现【产品效果】全链路追踪可视化应用日志与性能指标指标日志链路算法将日志事件(Logging)、链路追踪(Tracing)以及度量指标监控(Metrics)进行关联打通，实现多维度拓扑与立体化监控。指标详细指标说明评级检测方式内存container_memory_cache⻚面缓存的字节数1激增container_memory_rssRSS的大小（以字节为单位）1激增container_memory_max_usage_bytes以字节为单位记录的最大内存使用量1激增container_memory_working_set_bytes当前工作集（以字节为单位）1激增container_memory_failcnt内存使用次数达到限制5非零container_memory_usage_percentagesum(container_memory_working_set_bytes) 5激增/基础阈值.......

点击免费查看完整报告