您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [爱数]:2024年灾备系统自动化运维-提升灾备运维效率方案 - 发现报告

2024年灾备系统自动化运维-提升灾备运维效率方案

2024-11-28 杨天忠 爱数 Elaine
报告封面

杨天忠爱数高级产品运营工程师 CONTENTS 灾备系统运维的需求与挑战PART 1 灾备系统自动化运维方案PART 2 灾备系统自动化运维案例分享PART 3 PART01灾备系统运维的需求与挑战 缺少统一监控和告警管理,运维疲于救火,效率低 多集群环境缺少统一监控 大量告警难管理 •多套集群的环境,缺少全局视角监控,管理复杂;•传统运维平台仅能做基础资源和服务层监控,难以监控灾备业务运行情况; •告警风暴,大量告警信息处理效率低;•无法关注高频告警,针对性优化改进难。 缺少专业巡检和报表工具,运维耗时耗力,效率低 人工巡检效率低 手工制作运行报告耗时耗力 •管理员需要定期统计汇报灾备运行的概况,手动写报告的效率太低,还可能出错;•手工制作业务维度、系统健康维度以及其他个性化的报表,耗时耗力且容易出错; •灾备相关的任务、资源、服务项多,需要及时发现异常和隐患,人工巡检耗时耗力、容易遗漏,效率低下; PART02灾备系统自动化运维方案 灾备系统自动化运维方案 统一、实时监控并告警,及时发现灾备风险 自动化巡检,提升运维效率,及时发现异常和隐患 多样化报表和自动化报告,降低报表制作时长,提高汇报效率 灾备系统告警统计分析,支持下钻查看,辅助排障 PART03灾备系统自动化运维案例分享 项目背景介绍 Anadolu集团是一家总部位于土耳其的多元化跨国公司,业务涵盖饮料、汽车、零售、农业、汽车、文具、能源和健康8个行业,涉及20个国家。拥有80多家公司和90多个生产设施、6个研发中心和100000多名员工。 •本次项目涉及集团的九个子公司,要把云下数据中心的设备搬迁到华为云上,云下数据中心和云内数据库等需要备份到对象存储中。 •考虑到伊斯坦布尔的地区是地震频发带,已经规划后续把对象存储中的备份数据远程复制到安卡拉站点,实现异地灾备,提高集团子公司的业务和数据安全等级。 •项目是土耳其最大运营商Turkcell承建,华为引入灾备体系可观测性,为达成备份成功率99%提供保障。 需求分析 AnyRobot上线前的灾备运维现状: 客户期望: 用户:每天定期、自动发送运行报表给9个用户,方便他们快速了解当天的灾备运行情况*发送每个用户当天的任务执行历史记录; 人工运维耗时耗力 为了保证99%的备份任务成功率目标达成: •项目的运维方需要每天登录到AB界面上,把9个子公司的备份任务执行情况手工统计出来,包括任务执行总的成功率、每个Job的备份成功率、成功次数、失败次数等统计。技术人员每天完成统计工作耗时4-5小时。•运维方只能基于每日任务运行情况,手工分析灾备系统运行风险。•不同的用户查看自己的任务运行情况均需要手工逐条分析,缺少整体视图。 运维方:自动统计备份系统运行情况并发送报告,降低运维人员工作量,使其可以聚焦于解决影响备份成功率目标达成的关键问题。 *获取当天任务运行情况;*获取成功或失败的备份任务;*获取连续三天失败的备份任务;*获取没有开启的备份任务;*获取存储资源池的状态; Anadolu灾备体系可观测性方案 定期自动发送报表,让运维方不再需要手工出报告 定期报表发送 全局了解备份任务执行情况,查看备份任务成功率及趋势 备份任务执行概览BackupTaskOverview •展示最近24小时备份任务执行总数、成功数、失败数和成功率,总体备份目标是否达成,一目了然; •展示最近24小时内的备份任务执行成功率趋势,可评估哪些时间段成功率不达标,例如业务高峰期,是否备份成功率收到影响; •统计不同应用类型的备份任务执行情况,快速掌握应用数据的保护情况; 详细展示近24小时的备份执行结果,并筛选出备份失败任务 备份任务执行概览BackupTaskOverview •在时间轴上展示最近24小时各个时间段的任务执行结果,了解哪个时间段任务执行异常最多; •查看任务执行结果,可筛选出异常备份任务,便于了解任务执行时长、任务执行状态,管理员快速分析; 统计连续三天备份失败的任务,重点分析排查 连续三天失败的备份任务Failed Backup JobsWithin 3 Days •列表形式,详细展示连续三天都备份失败的任务; •展示任务所属的应用、创建任务时间、最后一次备份时间、执行次数、失败次数、失败持续时间(RPO)等信息; 统计备份任务执行结果,及时发现任务可能存在的风险 备份任务概览BackupJobOverview •统计最近24小时的备份任务总数,以及每个任务的执行总数、未开始次数、运行次数、失败次数、成功次数等,可以及时发现未开启备份的任务、失败的任务、部分成功的任务、成功但有告警的任务; 分析备份任务的数据量、耗时和备份速度,评估可能存在的风险 统计近24小时未执行备份任务的客户端,快速甄别漏备任务 没有执行备份任务的客户端Client Without Backup •统计最近24小时,没有执行备份任务的客户端(有可能没创建任务、可能没启动任务等情况); •以列表形式,详细展示客户端的IP地址、机器码、操作系统类型、操作系统版本、客户端状态等信息; 统计任务执行情况,让运维方快速了解子公司的数据保护概览 用户任务统计报告User Job Report •支持按照用户名过滤任务并查看任务执行成功率和执行次数。 •展示每个用户的当天的任务成功率和任务执行次数及执行结果分布; •展示任务的名称、所属应用类型,IP、状态、任务号、成功次数、失败次数、成功率等信息 了解更多 THANKS 地址:上海市联航路1188号浦江智谷8号楼2层A座咨询热线:021-5422 2601服务热线:400-880-1569客服邮箱:support@aishu.cn 爱数愿景以数据重塑生产力,共创智能世界Vision:Co-creating a smarter world with smarter data