MEWTSUNAI AI驱动下的可观测性架构升级实践 法讲人:毛咏伟 目录 01拱程可观测平台介绍 02.可观测数据治理实践 03架构升级助力AIOPS 04案例实践与思考 拱程可观测平台介绍01 About trip. con 为用户提供一站式旅行服务的网站应用数量实例数量(虚拟机+容器)40wt每分钟写入Nctric数量:10亿每日新站日志存2PB+ 携程集团 可观测性数据有哪些 网站当前有没有“问题”? 可观测性数据有什么用 根因定位 故障处理 监控告警 确定幼章彩响范用专家柔统的意揭快响 覆件/05异营 快速发现 根本薛决 可观测平台面临的挑战有哪些 1-5-10日标 云原生技术 设服务架构 一 1分神发现需特达视告管一快定位保赖可现测体乐 -空用效三快速增长一内用识用关系复卖 HPA(分律规交付效千客图)-时问序列效看牢的是效存 查询效平 可观测系统稳定性 激据及时性 -Metrio查询毫多购内-Th Loing告询移级购应-日志平均保留天效> 海量新增口志持级写入-日志丢失平净全路净编决时件 站式平台打评务监控系单一客量燃划指标治强体及 携程可观测平台介绍 携程AIOPS平台介绍 监控告管 管理窄量 充更风险检叠 吉警白因 -自动划车 HPAAPAL置有 故障定位 智能化发布 一音量换测&压测分析 故障自您处理 A1OPS铺助决策层算法 可观测数据 可观测数据治理实践02 携程日志系统架构 可观测性数据膨胀-日志量持续增长的问题 可H克auria:平月+量存三日志通最保品天数其续增加(14->30-90-! 可观测性数据膨胀-日志量持续增长原因分析 业多白然增长净放的日志增最理规清况: 行量日去清要证长时间应对客诉处孕,故降分析,计和合烦满求100100日去平均保行时长为5天加法齐易,验减法记表动,发首采用详尽的日志记录单确:本了次据品持障时能有效定存计宁使不断者加,大量场最需要保存请改报文和访问报文,极场最下单个报文字更美度经过20万宇行以空工车转高,是平均量的较低的一驻在价,担对示弃易品活用的情资 Logging日志治理实践 日志查询治理 从分散到统一 人表扫造限 一统一查询,缺一存计公司内批进日志社用是社实段 日志存储治理 Loegig最佳实践 本地盘+分布式存情冷热分高热术方案别0.oto租户源别0.ota 一滋陌日志妹一规范设置合理的保障天数设冒合理的发送阅值帽过闭值时有合理的采样责略 可观测性数据膨胀-告菩数量持续增长的问题 严重的吉需信息节低活先没吉需信息途“在天督文”,工程师对告营敏感性降低 可观测性数据膨胀-告警中台建设 可观测性数据膨胀-:告警中台建设 可观测性数据膨胀-告警治理手段 告叠分级 告警降景 Oncal机制 雪rewlenPU/P1告雪外理时效性婴荣 告管聚台能力提升自动制和收敏机材控划单位时间内告警数三 引入Bot协的处理一告警自急力起升、故障响密及处理方法沉定 可观测性数据膨胀-Metric高基数问题 可观测性数据膨胀-Metric高基数问题解决方案 容量规划 监控工具功能升圾 Matrie存储集解自身的监控一关注效品增长实障率量内对预率 增加增标限合能力引导用户进行聚合配置原拍恶降准,收象指标准- Mvic Falertiollt Natria指标治理 过滤能力 高基数指标的识动和检烈非法写入白动封禁tg蒸止快用陷机款-字符内客最大值限利 自动识别人放的年度实度一>用注度不期理单需tr解决所有问 架构升级助力AIOPS03 Metric Federation架构升级 VictoriaMetics DB1 统一API Netr ic Fadsration询PROWXY VictorisMeties DB2 元数招背理 VictoriaMetics DEn 预紧合管理 ClickHouse 元激据 自动限流 构建日志统一查询层(1) 构建日志统一查询层(2) 基于规则的间愿宣询禁用 日志跨集群迁移工具-让存量日志“动”起来 流程设计 "clickhouse Balancer"日志跨集群迁移工具- 集群内服务客利务空间均同正务高路期广客服务路联客 -采集内容携程统一监控Agent实践 日志统一采集 系统级监控指标 内核级监控指标 CFU内行网路10其热系统服务 syslogkernel1og安全登录日法uditloy一联务启停月志 ebpt notr ics-亲统中际情说-原件监控其街庆层服务. Tr ip-A1I-In-Unu-AGENT 安全审计 操作系统 -收益分析程统一监控Agent实践 安全合规 集中管控 格式和命名统 使用吸一的监控A可以险支和标准,使于后这的存请外理和分折, 可以实的晚一的案全略,如款提加盗,防门控利和审计日志,第保敢控的安全性和规性。 生中配置:通过统一的减少了分散管理带亲的夏杂性总售中利置监控路 统一的前名规范可以减少效起混,再保不同来源的取可以正施关联和对比 监距kgnt在安全审计中是一个重要的环节,可以动化这态,第暗爱善度的提升落电 保新有效保治理情草的一致性有性 携程统一监控Agent实践-运营情况 可观测数据价值深入挖掘-整体思路 04案例实践与思考 携程AIOPS实践思路介绍 日常工作痛点问题-磁盘故障处理 发现问既 AI通用智能告警 提采篇一自可观测平台提供既一的致范近取和注送清息队列 配置中心一由0P3团以起供规风配置存代 AI通用智能告警 故障定位分析 应用报错分析 应用报错分析-调用链 告规则智能解析 故障会议自动生成总结 借助大模型能力,对故障时群单对话文本进行高效总法 故障复盘自动生成总结 AIOPS辅助排障 借的人模亚能力合基础变更信息,发布信息,可现测相关数出,进行交互式问答,辅动升障 借助AIOPS能力解决痛点 “手”“眼”合一,可观测平台诗续升圾,自动化工具-知识库建设形成规范 根因分析 变更授权 故障领测 自动变更 行为中计 DAMS 中国数据智能管理峰会 ENEWTSUNI THANK YOU!




