个人简介 吴 杰 华 腾 讯 音 乐 监 控 负 责 人 9年研发经验,其中7年监控领域经验,2019年加入腾讯音乐后负责监控业务,提供一站式监控服务。平台专注监控及可观测性领域,提供高可用低延迟低成本的观测能力,全方位覆盖业务监控诉求。 背景与挑战 构建全链路基础之道 目录 探索可观测前沿场景 背景与挑战 介绍腾讯音乐在监控上的发展历程,以及所取得的成果。 腾讯音乐监控历程 智能化观测 自助监控 用户配置加工规则、上报数据后,自动生成视图,自助多维分析 全链路观测 通过链路数据,构建全景视图。针对链路上异常,分析一镜到底。 监控初期的现状挑战 数据体量大 业务多样化 监控诉求 l规范不一致业务相对独立,口径不一l框架结构复杂性产品自身体系庞大复杂框架不一,如Go/C++/Java等 l使用便易性统一观测标准贴合业界标准l快速发现能力低延迟响应,且可靠全局透视,问题点呈现 l治理复杂度上百PB日志,治理成本高服务间拓扑关联难度大l加工计算规模实时计算20E/min关联计算复杂性高 腾讯音乐解决方案 构建全链路基础之道 建 设 一 站 式 大 数 据 平 台 ,1 0 0 %实 现 自 主 数 据 加 工 、 多 维 分析 等 能 力 。 在 推 进 标 准 化 中 , 开 始 构 建 全 链 路 体 系 。 一站式数据工厂,支撑各类数据加工 多维度报表能力,自助进行归因分析 自适应收敛的告警策略,为质量监控赋能 折算值累计到达8触发告警 01 02累计值小于3时,间隔2个正常点清空计数 03累计值等于3时,间隔3个正常点清空计数 04累计值大于等于4,小于6时,间隔3个正常点情况计数 同时会记录告警的开始时间,结束时间,告警时间点数,总异常时间点数,总记录数,告警次数,告警累计值 05 消息通道升级策略,责任人跟进到位01 消息只允许短暂屏蔽,责任人需跟进到位 02 标准化指标数据,模板式接入 全链路之初实践 全链路拓扑图 基于大规模故障的聚集性分析,依据主被调服务的模调间关系,绘制出全景链路视图,辅助分析故障。 大规模故障 全链路可观测解决之道 借助容器化趋势,后端统一日志标准,基于OTel进行链路绘制。在链路上下钻分析,关联trace及相关事件,结合归因与可观测,挖掘有价值日志。 观测之道:一为看 l可观测与归因分析相结合 标准指标协议标准字段 01 Ø业界标准 自定义指标协议自定义字段 02 Ø业务标准 Ø团队标准 03关联指标其他数据源字段 链路构建生成完整链路图01 发布日志人为操作/系统操作 01 02链路过程查看单个请求中的明细 服务日志FATAL/ERROR/WARN 02 平台日志告警/事件/通知公告 链路标记凸显关键点&边 03 03 结合OTel统一链路升级 结合业务统一实时观测 观测之道:二为听 由点到面的告警,观测粒度统一收敛到服务层面,再进行可观测挖掘 告警发生时的归因与可观测挖掘 探索可观测前沿场景 在大模型+赋能下,进一步智能关联相似链路,拓宽可观测全景视图,精细化标记各个节点发生事件,自动下钻出异常根因,推进自愈。 快速挖掘业务影响面 影响业务 通过相似链路,关联出传统链路所关联缺失的链路,补全完整业务覆盖面 近似链路 智能关联近似链路,汇聚不同维数据,匹配高相似度请求 数据融合 不同的数据口径上报的数据,挖掘共性,构建更多维的底层。 探索多云环境下的可观测能力 多云可观测性 研发过程中,多云已然成为趋势,随之而来的也有不少挑战。 规避数据孤岛问题,统一多云上研发相关数据协议、接口、格式等,数据难以互通。 01 通过中台能力,打通云上云下监控手段,实现对故障的高效定位,提升研发效能。 02 多云下会产生大量遥测数据,实现全部可观测所需付出的成本问题03 探索大模型+可观测 总结性归因 自适应监控 预测性监控 利用大模型进行预测性监控,提前识别潜在问题并采取预防措施,提供更强大的安全监控和威胁检测能力。 对每次告警总结归因,通过专家经验、用户确认优化模型,从而更准更快剖析出下次故障根因。 未来的可观测性系统将能够自适应调整监控策略,根据实时数据动态优化监控参数。 探索大模型+可观测 T h a n k s 荣誉出品