AI智能总结
云原生时代的可观测性最佳实践 杨金全基调听云研发VP 个人介绍 杨金全基调听云 研发VP 中国第一批商业化APM工具缔造者、实践者,目前专注在一体化智能观测性平台的产品研发及商业化运营上,对APM及可观测性行业有较深入的理解及洞见。常年服务于金融、运营商及高科技等行业的头部客户,为其提供专业的技术方案和产品服务。 数字化转型对IT运维带来的挑战 可观测性的5大支柱及其价值 目录 一体化智能可观测性平台落地实践 CONTENTS 遇见答案-智能运维AIops落地实践 行业案例 01数字化转型对IT运维带来的挑战 挑战与必要性 宏观趋势/技术趋势/业务挑战/能力范围 企业对于数字化转型的需求从未如此强烈 87%的企业认为数字化将颠覆他们的行业-By德勤 91%的企业都参与了某种形式的数字化计划ByGartner 深入推进数字化转型以保持竞争力 %98的CEO表示缺乏良好的合规管理体系以应对转型风险。 数字化转型失败率居高不下 Gartner:数字化转型以业务为中心,服务和用户体验是关键目标。而IT监控以系统可用为中心,仅关注系统可用性指标对于转型中的企业而言是一场灾难。到2023年,依赖于“正常运行时间指标的监控实践将抑制90%的转型计划 By Gartner: Monitoring Beyond 202O: Focus on Performance 基调听云 数字化转型对企业IT服务稳定性提出要求 数字化业务的门复杂度正在爆炸式增长,传统监控力不从心 现状 传统监控是对被监控设施(系统)所进行的明确的、可预测的审视与度量,关注系统失败的因素,从而定义出系统失败的模型据此设定告警。现有的监控体系工具繁多,视角单一,数据割裂,监控对象覆盖不全,监控粒度过粗。 云原生挑战 应用的数量、数据的体量变化的频率和增加的速度 多种多样的开发语言,各种各样的运行时、支持软件和数据库 资源仍然有限 多云/混合云,一切都是容器化且动态变化 数字化转型使得企业及其客户都依赖于体系化的IT系统来实现增长 不断增加的系统复杂性故障排香难度,正在窃取企业的创新时间 容器创建的速度和规模及其生命周期超出数据中心时代管理边界 已经远远超越了仅通过固定仪表板就可以管理复杂IT系统的能力 使得依赖复杂多样,已经超越了IT从业者的沟通界面 O基调听云 GOPS全球运维大会2023·上海站 应用程序可观测性时代 基调听云 可观测性是推动数字化转型的战略重点 根据受访者的说法,以下是可观测性相对于传统监控方案的五大优势: 1.将IT与业务成果联系起来2.更深入的洞察和探素能力,以发现和解决问题的根因。3.改进日志记录,提供异常访问的早期预警,4.能够跨分散的IT基础架构、多种工具和应用程序工作5.改进了最终用户体验, 可观测性现在是其企业的战略重点 02可观测性5大支柱及其价值 可观测性是保障企业数字化转型成功的必备工具 可观测性是一种方法,通过检查系统的外部输出来衡量系统内部状态的能力。外输出的数据称为信号。指标,追踪、日志,诊断是CNCF约定的主要信号,基调听云认为,需要增加用户体验这一重要信号,形成可观测性“五大支柱" 给出答案 是衡量可观测性平台的唯一标准。-- By 基调听云 可观测性与监控的区别 被动式发现问题固定的分析模式(仪表板)只能用来发现已知问题数据关联性较差适用于简单系统架构过度依赖经验和专家 开放式分析问题完全自由的探索模式发现未知的未知完整的上下文适用于复杂的系统架构不依赖对系统的了解 可观测性与APM的区别 为什么需要“一体化"智能可观测性平台? 为什么需要一体化“智能”可观测性平台? 大部分问题识别、定位依赖人肉运维 为什么需要一体化智能“可观测性”平台? 由监控上升到可观测性 多云、复杂、弹性的架构无法实时全景观测 指标繁多,告警风暴,无法治理 数据散落,没有关联性,故障排查困难 缺乏应用安全监控与漏洞检测 IT与业务割裂,需要数据洞察和决策支持 为什么需要一体化智能可观测性“平台”? 由工具转向平台化 需要针对不同团队人员统一沟通语言,高效协同需要打破孤岛并在问题影响最终用户之前主动预防需要将可观测性、安全、数据分析集中一处需要双向开放,保障不是另一个孤岛需要简单、开放、自动化的集成多源数据需要平台+应用的模式,打通可观测性上下游需要差大规模的计算能力,主动提供答案 一体化智能可观测性平台应该具备的能力 持续自动化 用户体验 智能全栈可观测 业务分析 团队协作 AI驱动 智能分析主动提供答案 体验感知旅途回放 业务转化业务影响 统一沟通语言赋能组织 自动发现自动告警自动分析 全栈拓扑可视化自适应技术栈变化 自动化、A驱动和超大规模计算 APM+可观测性是实现高级可观测性最佳路径 APM+可观测性 以eBPF技术构建 业界公认效果最佳方案,做到业务层、应用层基础层以及日志等维度全方位采集与关联。基于全栈的数据采集,深入洞察系统代码运行效率的同时,不受操作系统类型、版本等限制。 因云原生而兴起,通过BPF技术扩展而来,通过在内核事件和用户程序事件发生时安全注入代码实现对数据的监测与关联,在继承BPF对网络质量监测的同时,扩展了对应用事件的监测,以低侵入性著称。 APM作为侵入式的监测手段,需要预先适配各种技术栈从而实现对应用的监测。只有多年的的行业积累才能充分满足不同场景。 在数据监测方面缺乏对用户体验与代码运行效率的监测,同时对操作系统版本及类型有严格要求。 以日志链路构建 以网络流量构建 通过对日志添加TraceID的方式,实现对请求的全错路跟踪,以非侵入式的方式实现对后端链路的可观测。 通过在核心交换机以旁路镜像流量的方式对每条数据包进行解析实现。其优势主要表现在对业务的无侵入性 但也因其技术原理使得在信号丰富度上大帽度欠缺 因主要是解析日志内容得出结果,在信号丰富度方面较为欠缺,主要表现在缺乏用户体验、代码运行效率等维度的可观测。同时需要改造日志格式满足数据接入要求。 GOPS全球运维大会2023·上海站 遇见答案 03一体化智能可观测性落地实践 O基调听云 一体化智能可观测性平台价值 数据驱动的决策 可观测性可以提供实时、准确、全面的数据,以支持企业管理人员在业务决策中作出更有效、更快速的决策。这些数据可以来源于业务流程、成本、客户满意度、业务运维等多维度数据 业务流程可视化 优化用户体验 业务流程执行情况及各个流程的依赖和影响,对业务中存在的瓶颈点、缺陷和潜在风险进行快速识别,帮助企业改善业务流程,提供业务效率和质量。 帮助企业更好地了解用户的行为、需求和体验,通过对用数据的统计和分析,发现用户在业务中遇到的问题,进行业务的优化和改进,提高窖户留存率和满意度,提高市场竞争力。 持续自动化的实时监控和提供答案 快速故障诊断和修复 提高业务执行的稳定性和可靠性。实时了解故障信息,快速定位、分析和解决潜在缺陷,缩短业务恢复时间,减少业务停机时间和用户受到的影响。 可观测行通过持续自动的监控,采集全量、全面的数据,基于AI持续自动的分析,及时发现并提供答案 可观测性平台 给出答案,让运维更简单 Parnt1 OneAgent 采集即治理、采控一体、持续自动、全面全量 OneAgent:采集即治理,安装它,忘记它-它会处理好一切 次安装、静默运行 NO.1 100+ 最大企业级部署案例1W+ 行业头部客户适配经验 采集即治理,连接数据+模型+对象+AI,实现全景上下文自动化的端到端数据采集,自动识别、自动来集、覆盖600+技术栈、全面全量统一数据模型,从数据采集开始连接5大支柱+5大扩展数据模型,确保所有人获得一致的“单一事实来源”,无需在工具间跳转和数据校准面向未来的可扩展性,基于主机或Kubernetes部署,无忧升级、灵活配置、按需编排和加载统一纳管,采集对象包含用户、业务、HybridApp、网页、小程序、网络、应用、安全、请求、代码、进程、容器、中间件、数据库等生态兼容,全面兼容开源标准OpenTelemetry 采集即治理-OneAgent治理路径,全栈可观测数据采集与治理 全栈可观测数据采集:实现全栈可观测拓扑中台的基石 Pant2 数据湖仓 湖仓一体、超大规模计算、AI4Data、生态开放 基调观云数据湖仓:全栈可观测性大数据基础设施 观云数据湖仓全景 存算分离 三层池化的存算分离架构:算子Native冷热数据自动分级处理。交互式OLAP:支持高性能分析,支持资源弹性伸缩 管 数据集成数据架构数据开发|数据治理|数据服务|数据安全AI4Data 智能化数据生产线 全栈数据AI4Data:数据治理全流程智能化,键实时数据湖集成:一站式任务管理AutoETL自动作业,提升集成效率。智能运维,血缘分析,数据资产管理与数据安全。 算 数智融合 统一模型与元数据:打通数据和模型,支持数据+AI灵活编排。融合镜像:AI平台与大数据平台统一融合镜像,支持统一资源调度。 OpenTelemetry(多源融合) 云原生 观云大数据引擎:一站式大数据平台 Part3 DEM 以用户为中心,驱动业务韧性 用户体验监测的核心能力 异常:崩溃、卡顿、OOM、自定义错误、请求错误、JS错误 体验评分:以行业数据为基准,通过应用的核心指标对用户体验情况进行数字化评分 用户体验监测重点功能-用户旅途 监控场景 用户分析以用户为视角,提供基于用户的画像、会话列表和异常列表,能够直观地帮助客户分析用户问题 基调听云 用户体验监测重点功能-视频回溯 Part4 Al 给出确定性答案,让运维更简单 观云AI引擎:AIOPS方法论 基于机器学习的预测式AI实现AIOPS 基于因果关系的AI实现AIOPS 使用可观测性全景上下文数据和确定性A来精确查找故障根源,例如响应时间恶化,吞吐率抖动或应用安全威胁。基于因果关系的AIOPS不是根据问接证据关联2个事件或多个事件,而是确定触发这些事件的确切根源这种方法通过准确、实时、可解释的答案来指导工程师解决故障,而不是简单地提供最佳猜测 通过机器学习来识别事件之间的相关性该方法努力确定复杂云原生环境下的各种对象中的故障是源于相同的问题根源,还是源于不相关的问题这些相关性可以为评估故障的范围提供一些有用的见解。但要明确问题根源,工程师必须通盘了解各种报表、告警、日志、链路关系,以及其他数据的相关性,以识别发生的故障。 基调观云A引擎:每一场遇见,都是处心积虑的安排 观云AI引擎:确定性AI的业务收益 夺回时间 回归创新 通过基于因果关系而非仅仅相关性的方法,我们能够自动生成疑以问题,从而帮助运维团队减少手动、重复性任务和故障排除所需的时间。 通过确定性AI,不仅有助于工程师加速工作,还有以下好处:团队可以获得更多的时间和对系统的精确掌握,从而能够通过创新的新解决方案和工具为企业创造真正的价值,而不仅仅是维护现有资产。 传统AIOpS方法仅关注于关联数据点,这意味着工程师需要耗费时间手动查找问题的根本原因 提升用户体验 驱动业务韧性 确定性A还使团队能够实时了解用户体验,以在客户受到影响之前自动发现问题。因此,团队可以根据业务影响动态扩缩容并确定改进的优先级,这种自动化的洞察力使团队能够降本增效并提升用户体验。 面对不断变化的环境和未知的未知问题的出现确定性A还能够提高业务的韧性。通过A玛驱动的业务分析和可观测性,IT团队能够就多云环境的性能如何影响业务做出决策。这种决策能力有助于业务更好地适应和应对各种挑战。 确定性AI 观云AI引擎-确定性A能力模型 Pant5 自由探索 实现高级可观测性,让观测无边界 高级可观测性场景1:指标体系-体系化是实现高级可观测性的基础