运维开发的初心使命
运维开发的初心使命是保障内部需求,提升变更和交付质量,缩短故障处理时间,保障系统高效稳定运行。同时,服务开发、服务DBA,以科技思维解决痛点,通过迭代让用户从吐槽到肯定,最终实现不背锅、不值班、不运维的理想状态。具体措施包括持续发布SQL审核、安全屏蔽、测试支持,应急管理零依赖,应急操作、数据恢复,以及智能运维的动态阀值、故障自愈、无人值守等。
智能运维
智能运维(AIOps)是通过机器学习等人工智能算法,自动从运维数据中学习及总结规则,并作出决策的运维方式。它以大数据和机器学习为基础,增强传统运维的能力。智能运维的场景方向包括安全、效率、质量和成本,旨在实现好(安全)、省(成本)、快(效率)、稳(质量)的目标。
智能运维实现路径
智能运维的实现路径包括业务监控、基础监控、基础日志、告警信息、ITSM、CMDB、知识库等数据来源,以及初级编排和终极编排的算法选择和自动编排。自动化工具如ansible、puppet和云、容器技术也是实现智能运维的关键。
数据库故障自愈
数据库故障自愈系统通过生产环境告警系统、统一接口、统一操作平台、消息队列、分析模块、决策模块、输入模块、训练模块和决策树集合等组件实现。系统示意图展示了从故障自愈系统的输入到输出的完整流程。
故障自愈系统示例
故障自愈系统示例包括FRA区告警处理、自助配置、表空间自动扩容、执行计划自动固化等。例如,FRA区告警处理通过DBA根据经验列写故障场景及处理方法,智能学习得到处理FRA告警的决策树模型,当来一个告警时,补充相应检测值作为测试集给到决策树,实现自动处理。
结果展示
每月有多例告警通过自愈的方式自动处理。FRA区的处理效率缩短至6秒以内,相较人工处理效率提升100倍以上。SQL执行计划的处理也在10秒内完成,非常有效避免问题恶化。
总结
决策树直观明了,并创新性实现了与运维DBA的互动自助调试。明确策略场景,该方式安全可靠,有效规避自动学习“概率性”问题。智能学习,自定义接口,灵活自定义,代码复用度高。
展望
展望未来,目标是实现无人值守。