AI智能总结
演讲人:周昕毅 目录 01携程可观测平台介绍 02可观测数据治理实践 03架构升级助力AIOPS 04案例实践与展望 01携程可观测平台介绍 About trip.com -为用户提供一站式旅行服务的网站-应用数量:1w+-实例数量(虚拟机+容器):40w+-每分钟新增Metric数量:10亿+-每日新增日志存储:1PB+ 可观测性数据有哪些 可观测性数据有什么用 监控告警 根因定位 AIOps&可观测数据 携程AIOps实践 监控告警 管理容量 管理变更 -智能告警-告警归因-故障定位-故障处理 -容量评分-HPA/VPA配置推荐-容量预测&压测分析 -变更风险检查-自动刹车-智能化发布 AIOps辅助决策层 携程AIOps实践-根因定位 根据应用Metric报错数据和应用调用链Trace数据自动分析当前故障关联关系,提升根因定位效率 可观测平台面临的挑战有哪些 云原生技术 1-5-10目标 微服务架构 -应用数量快速增长-应用调用关系复杂 -HPA (分钟级交付数千容器)-时间序列数据库的基数膨胀 -1分钟发现需要秒级告警-快速定位依赖可观测体系 数据及时性 查询效率 可观测系统稳定性 -海量新增日志秒级写入-日志丢失率控制-全链路传输实时性 -一站式平台打通多个监控系统-监控数据延迟导致误告警-容量规划&指标治理体系 -Metric查询毫秒级响应-1h Logging查询秒级响应-日志平均保留天数>7 携程可观测平台介绍 02可观测数据治理实践 携程日志系统架构 可观测性数据膨胀-日志量持续增长的问题 -新增日志Senario:平均每月50+新增场景-存量日志场景保留天数持续增加(14->30->90…)-日志容量峰值日增> 1PB 可观测性数据膨胀-日志量持续增长原因分析 -业务自然增长造成的日志增加…最理想情况:) -存量日志需要延长时间应对客诉处理、故障分析、审计和合规需求(Top100日志平均保存时长为98天)-做加法容易,做减法很费劲,研发普遍采用详尽的日志记录策略、为了确保后续排障时能有效定位-存储字段不断增加,大量场景需要保存请求报文和访问报文,极端场景下单个报文字段长度超过20万字符-ClickHouse压缩率较高,是平均单价较低的一种存储介质,相对而言容易出现滥用的情况 Logging日志治理实践 从分散到统一 日志查询治理 -用户SQL智能改写-查询QPS限制、时间范围限制-大表扫描限制-查询历史回顾 -统一查询、统一存储-统一元数据-公司内推进日志使用最佳实践 日志存储治理 Loggig最佳实践 -遵循日志统一规范-设置合理的保留天数-设置合理的发送阈值-超过阈值时有合理的采样策略 -本地磁盘+分布式存储-冷热分离技术方案-表级别Quota-租户级别Quota 可观测性数据膨胀-告警数量持续增长的问题 -严重的告警信息被低优先级告警信息淹没-“狼每天都来”,工程师对告警敏感性降低 可观测性数据膨胀-Bigeyes告警中台建设 可观测性数据膨胀-Bigeyes告警中台建设 可观测性数据膨胀-告警治理手段 告警分级 告警降噪 Oncall机制 -P0/P1/P2/P3-告警定期review-及时响应率-P0/P1告警处理时效性要求 -告警聚合能力提升-自动抑制和收敛机制-控制单位时间内告警数量 -引入Bot协助处理-告警自愈能力提升-故障响应及处理方法沉淀 可观测性数据膨胀-Metric高基数问题 可观测性数据膨胀-Metric高基数问题解决方案 容量规划 监控工具功能升级 -增加指标聚合能力-引导用户进行聚合配置-原始数据降维,收敛指标维度-Metric Federation建设 -Metric存储集群自身的监控-关注ts数量增长-尖峰流量应对预案 过滤能力 Metric指标治理 -高基数指标的识别和检测-非法写入自动封禁-tag value禁止使用随机数-字符内容最大值限制 -自动识别无效的维度-实例维度->应用维度-不期望单靠Metric解决所有问题 03平台架构升级助力AIOPS Metric Federation架构升级 统一API 元数据管理 预聚合管理 构建日志统一查询层(1) 构建日志统一查询层(2) 自动封禁 日志跨集群迁移工具-让存量日志“动”起来 日志跨集群迁移工具-“Clickhouse Balancer” -集群内服务器剩余空间趋同-业务高峰期扩容服务器缩容-“冷”“热”数据定期搬迁 携程统一监控Agent实践-采集内容 内核级监控指标 系统级监控指标 日志统一采集 -CPU-内存-磁盘IO-网络IO-其他系统服务 -ebpf metrics-内核异常-系统中断情况-硬件监控-其他底层服务 -syslog-kernel-log-安全登录日志-auditlog-服务启停日志 Trip-All-In-One-AGENT 安全审计 携程统一监控Agent实践-收益分析 安全合规 格式和命名统一 集中管控 可以实施统一的安全策略,如数据加密、访问控制和审计日志,确保数据的安全性和合规性。 集中配置:通过统一的Agent,可以集中管理和配置监控策略,减少了分散管理带来的复杂性和错误风险。 使用统一的监控Agent可以确保所有采集的数据采用一致的格式和标准,便于后续的存储、处理和分析。 统一策略:可以应用统一的数据采集、存储和处理策略,确保所有数据治理措施的一致性和有效性。 监控Agent在安全审计中是一个重要的环节,可以确保安全策略的收口,自动化巡检,策略覆盖度的提升落地。 统一的命名规范可以减少数据混淆,确保不同来源的数据可以正确关联和对比。 携程统一监控Agent运营情况 可观测数据价值深入挖掘-整体思路 可观测数据价值深入挖掘-AI通用智能告警 -数据采集-由可观测平台提供统一的数据抓取和推送消息队列 -配置中心-由AIOPS团队提供规则配置存储 -智能引擎训练-AIOPS团队消费消息训练时序曲线。 可观测数据价值深入挖掘-AI通用智能告警 04案例实践与展望 携程AIOps实践思路介绍 “运维之眼” “运维之手” -监控工具提供基础数据-可观测平台提升数据质量 -自动化运维工具API调用-运维流程workflow 运维操作 工具接口标准化 日常运维工作中的痛点问题-被动式故障管理 发现问题 -典型场景包括:故障磁盘自动拉出集群;故障机器自动隔离;发现某类型日志自动重启应用; -规则明确、执行流程固定、影响面可控的情况,接入AIOPS助手可以显著提升工作效率、降低故障处理时间 日常运维工作中的痛点问题-被动式故障管理 发现问题 智能诊断 日常运维工作中的痛点问题-被动式故障管理 日常运维工作中的痛点问题-被动式故障管理 日常运维工作中的痛点问题-RCA会议自动总结 -可观测性平台提供基础数据-借助大模型的能力,进行高效总结 日常运维工作中的痛点问题-主动式故障管理 -典型场景包括:智能告警、智能变更、根因分析、容量管理-被动式->主动式故障管理和故障防御机制 借助AIOps能力解决痛点 “手”“眼”合一,可观测平台持续升级,自动化工具+知识库建设形成规范 复杂场景辅助人工决策 告警自愈 根因分析 自动变更 THANKS 大模型正在重新定义软件Large Language Model Is RedefiningThe Software




