俞灏宣蚂蚁集团 个人介绍 俞灏宣蚂蚁集团-技术专家 蚂蚁集团智能变更管控平台与智能变更异常检测技术负责人,变更管控开源社区AlterShield负责人。在高可用技术领域沉淀5年,在变更管控领域有丰富的实践经验。帮助蚂蚁集团防控了近千笔生产环境变更故障,并初步实现了蚂蚁集团的变更无人值守。 变 更 管 控 的 意 义 1 目录 变 更 管 控 的 方 法 和 架 构 2 CONTENTS 变 更 管 控 如 何 智 能 化 3 我 们 的 未 来 规 划 4 01变更管控的意义 变更管控的价值与复杂性 编码和变更问题占比一半以上 亚马逊系统复杂度 稳定性问题引发因素:变更是导致线上稳定性问题的主要引发因素,如何进行变更风险防控,降低企业的稳定性风险。 系统复杂度无法避免:任何设计系统的组织产生的所有设计都将受限于组织间的沟通结构。 变更管控的价值与复杂性 02变更管控的方法与架构 如何定义变更 1.变更≠ops2.变更是对线上服务“状态”的修改3.操作由内部人员发起 OCMS(OpenChangeManagementSpecification) •从技术视角,定义变更的信息与技术模型•兼容不同背景下的各类变更,做到“统一化”•屏蔽上层业务带来的信息差异,为后续变更防御、变更搜索、变更审计提供标准模型•为其他技术风险领域能力,提供标准的信息结构•让更专业的人做更专业的事 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 如何防控变更中的风险 1.不可能100%提前发现所有问题 2.使变更引发的风险可控/可接受 3.相对完善的前后置防御能力 灵活的变更防御框架 1.防御能力路由:针对不同变更,通过配置表达式的形式,路由到不同防御能力集合,满足不同背景下变更的防御检测多样性诉求 3.开放性的防御SPI:不同部门/业务的风险防控人员,可根据自己的需求,以FaaS化的形式进行防御校验逻辑的集成 2.防御能力调度与并行执行:各防御能力间相互独立,按照一个“统一的结构”进行返回 03变更防控如何智能化 从研发的视角入手 时序指标异常检测–智能变更监控 日志堆栈异常检测–新增/突增异常 训练阶段:将通用错误日志中的异常信息进行正则化处理,并将处理后的日志正则模板按照相似度进行分类,构造该系统的日志模板库。 预测阶段:将系统实时采集异常日志信息同样进行正则化处理,并与模板库中全量模板进行相似度拟合,得出该异常是否为新增异常的结论;针对突增异常,需要计算异常模板计数,预测思路和时序异常检测思路相似。 上下游系统服务报错–链路异常检测 简单模式:通过trace日志聚合即可反映出系统间每笔流量的调用异常情况以及业务错误码的变化情况,但这种方式的问题在于计算量过于庞大,极度损耗资源。 结合中间件:将每笔流量的调用携带特殊标记进行透传染色,这样既能明确感知一笔流量所经过的系统链路,又能在透传的同时携带系统交互的关键信息,从而实现整条链路的异常检测。 配置值自适应校验 04我们的未来规划 开源社区:AlterShield 云原生场景快速集成:通过KubernetesOperator机制,将OCMS部分下沉到集群中,实现了滚动升级场景的免接入。同时,AlterShieldOperator本身提供了分批发布的托管方式,无需再集成其他CI/CD工具。但AlterShieldOperator也保留了其他CI/CD的集成入口 当前阶段:AlterShield及其Operator计划于11月初推出v1.0正式版本,支持上述云原生场景的快速集成 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 开放运维联盟高效运维社区DevOps时代 荣誉出品