您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Dynatrace]:为汽车行业正确构建AIOps - 发现报告

为汽车行业正确构建AIOps

交运设备 2024-11-28 - Dynatrace 章嘉艺
报告封面

为汽车行业正确构建AIOps 由因果关系和预测性AI提供支持的自动化和精准解决方案 报告内容 引言AI的前景 引言 第 1 章异常检测和警报 AI的前景 第 2 章获取最佳监控数据 AI正在推动企业软件进一步创新¹,使智能自动化和垂直整合达到新的水平。但随着目前企业系统规模的扩大,数字化和云计算的优势与技术复杂性和运营风险并存。AI技术支持的软件智能有望应对这些挑战并实现新一代自主云企业系统。 第 3 章AI操作及问题根源分析 精通数字化技术的客户主要关注客户体验,他们正日益给汽车行业的企业带来压力。事实上,消费者对卓越体验的需求正在推动汽车行业的创新,其中表现优异的企业正在挖掘前所未有的竞争优势。 第 4 章影响分析和基本问题根源 第 5 章自动修复 第 6 章自动化和系统集成 1AI技术—William Blair行业报告,2018年6月28日 不拘于错误检测,实现自我修复 AI的前景 想想以下这个屡见不鲜的挑战:当全球服务受到影响时,基于微服务的大型应用程序中的异常会触发大量警报。由于应用程序实际上包含数以百万计的依赖项,如何才能找到最初的错误?传统的监控工具并无太大的帮助。这些工具只会收集指标并发出警报,但几乎无法回答问题出在何处。 通过让一切实现自动化,实现自主操作、促进创新并提供新的客户参与模式。 相比之下,人们希望有一种智能系统能够准确提供答案,也就是说,找出异常情况的技术问题根源以及解决方法。如果此类智能系统准确可靠,则可以在大多数用户发现故障之前触发自动修复程序。 问题根源分析 智能DevOps 用准确可靠的问题根源分析取代大量杂乱的异常警报。 通过智能性能和回归测试提高创新速度和软件质量。 AI和自动化有望从根本上改变运营方式。更重要的是,从软件开发到服务交付,再到客户互动,整个数字价值链都需要收集和应用智能。智能集成和自动化将推动企业软件进一步实现创新。 智能的客户参与方式 自动修复 根据系统运行状况和真实用户需求自动进行异常修复和性能优化。 使用商业智能数据提升客户体验,包括自动修复故障和解决投诉问题。 AIOps效果卓著 Dynatrace帮助全球顶级企业简化云复杂性并加速数字化转型。Dynatrace平台的核心是Davis,即我们的因果关系AI引擎。与基于相关性的机器学习方法不同,Davis旨在处理现代云环境中的复杂问题。Davis可实时处理数万亿计的依赖项,持续监控全栈的系统下降和性能异常,并根据业务影响和问题根源确定优先次序,提供精确的解决方案。这使得开发、IT、安全和业务团队能够轻松进行故障排除,并将更多的时间用于创新和取得变革性业务成果。 “Dynatrace听起来确实不错,兑现了一切承诺,甚至远远不止这些。我们可以完全掌控用户体验,并且可以满怀信心地更快实现创新和交付我们的软件,Dynatrace真正帮助我们走上了数字化成功之路。” 如何提高敏捷性和用户体验 Porsche Informatik意识到,要实现真正的敏捷,需要采用截然不同的性能监控和管理方法。该公司在评估市场后选择了Dynatrace,因为Dynatrace能够提供IT环境各层的完整可见性以及用户会话的实时视角,同时提供对所有主要云平台和服务的本机支持。 —Manfred Immitzer,Porsche Informatik总经理兼首席数字官 第 1 章 异常检测和警报 洞察力 自动化操作的概念着眼于更妥当地排除故障,最终目标是缩短平均恢复时间(MTTR)。这通过自动异常检测和警报(即快速平均发现时间(MTTD))来实现。然而,进一步缩短MTTR需要自动的问题根源分析。 挑战 传统的监控工具侧重于通过应用程序性能指标和基线方法来区分正常行为和错误行为。定义异常阈值是一项棘手的任务,需要机器学习等先进的统计方法。然而,事实证明,在云应用领域,即使采用最好的基线方法也远远不够。 使用现代微服务架构,单个故障会影响多个互连服务,这些服务随后也会出现故障。因此,一个问题可能会触发许多警报。这就是所谓的警报风暴或杂乱警报。 传统的监控解决方案无法解决这个问题。操作人员仍需弄清楚警报的原因。问题分类成为一项耗时且通常令人烦恼的工作,需要召开集体会议和花费大量时间。 唯一的解决方法是找到一种自动确定问题根源的可靠方法。 微调单个基线会有所帮助,但无法解决警报风暴。为了真正解决问题,我们需要突破常规,尝试直接找到潜在的问题根源。 有两种截然不同的基于AI的方法可减少杂乱警报: 使用故障树分析的确定性AI 到2026年,人工智能(AI)在汽车市场创造的价值预计将超过120亿美元。—Marketwatch •机器学习AI使用统计方法将多维模型中的数据关联起来•构建模型需要时间并且在动态环境中存在滞后•需要人工解读来确定问题根源 •确定性AI执行安全工程中常用的逐步故障树分析 • 近乎实时工作 •轻松可视化结果,查明问题根源,帮助了解影响 第 2 章 获取最佳监控数据 洞察力 挑战 全面的系统可见性是实现自动化操作(包括可靠的自我修复)的必要前提。我们不仅需要全面了解应用程序(包括容器和功能即服务),还需要全面了解所有层面的云基础设施、网络、CI/CD管道以及真实用户体验。在许多情况下,数据收集本身是免费的,因为所有主要的公共云提供商均提供监控API,而且开源工具也非常丰富。然而,以下考虑事项至关重要: 在采用不同监控工具的环境中,操作人员需要对不同来源的多种不同输入信息进行分析。这会增加态势感知和诊断出错的可能性。目前,只有5%的应用程序受到监控。²目标是获得全面的端到端可见性。 一家大型汽车制造商解决问题的时间比之前减少了20%。 •检测和部署更新需要多少人力?•监控代理程序能否将自身添加到功能或容器等临时组件中,配置更改是否需要额外人工检测?• 指标是粗略采样还是高保真?•是否有足够的元信息和上下文信息来构建统一的数据模型? 丰富的上下文数据 为了完成真正的问题根源分析,收集的数据需要高保真(最小采样或无采样)并且内容丰富,以便创建实时拓扑和服务流图。 服务流图 拓扑图 服务流图提供事务视图,从单个服务或请求的角度说明服务调用的顺序。服务流图显示的是整个事务的逐步顺序,而拓扑图则是更高层次的抽象概念,只显示一般的依赖关系。服务流需要高保真数据,只需最少或无需采样。 拓扑图可以捕捉整个应用环境,并将其可视化。这包括垂直堆栈(基础设施、服务和流程)和水平依赖关系(即所有传入和传出调用关系。)最佳监控解决方案可自动发现新的环境组件,并提供近乎实时的更新。 第 3 章 AI操作及问题根源分析 洞察力 不采用AI的企业将徒劳无功。企业采用混合多云环境后会产生海量数据,大幅提高环境复杂性,这些将使人力无法监控、弄清情况并采取行动。 挑战 我们正在迅速进入这样一个时代:人力将不再是解决IT问题或将代码投入生产的主要参与者。云和AI解决方案围绕自动化展开,因此DevOps未来几乎不需要太多的人工干预。为了使AIOps(真正的自主云操作)完美运行,我们需要一个系统,该系统不仅能够发现问题,还能查明真正的问题根源。 “ Dynatrace是我们部署过的出色解决方案之一,绝对可以解决我们遇到的所有问题。” 不采用AI的汽车企业将徒劳无功,最终会被淘汰。汽车企业采用混合多云环境后会产生海量数据,大幅提高环境复杂性,这些将使人力无法监控、弄清情况并采取行动。 —Brian Rutherford,U-Haul软件开发总监 现代、高度动态的微服务架构在混合和多云环境中运行。基础设施和服务会根据负载需求瞬间启动和停止。确定异常情况的问题根源所需的工作量远远超出人工承受能力。 采用确定性AI的问题根源分析 Davis(Dynatrace AI引擎)使用应用程序拓扑和服务流图以及高保真指标来执行故障树分析。故障树显示特定警报的所有垂直和水平拓扑依赖关系。请考虑右侧图表中显示的以下示例。 1.Web应用程序出现异常,例如响应时间缩短(参见图中左上角)。 2.Davis首先“查看”下面的垂直堆栈,发现一切都按预期运行,没有任何问题。3.从这里开始,Davis跟踪所有事务并检测到服务1的依赖关系,该依赖关系也显示异常。此外,所有其他依赖关系(服务2和3)也显示异常。4.自动问题根源检测包括示例中的所有相关垂直堆栈,并对促成因素进行排名,以确定负面影响最大的堆栈。5.在本例中,问题根源是其中一台Linux主机的CPU处于饱和状态。 确定性AI可自动准确地确定技术异常的问题根源。这是真正实现AIOps的必要前提。在接下来的章节中,我们将深入探讨需求自动修复。 了解问题演变 确定性故障树分析可产生精准、易于理解的结果。这可用于逐步回放问题的演变和解决过程,并在拓扑图中直观显示受影响的组件。这是一个非常强大的功能,因为它允许DevOps团队从一开始就深入了解问题,从而将分类和研究时间减至最少。 问题演变数据是自动修复的关键。由于可以通过应用编程接口(API)进行访问,因此可以触发修复序列,以手术般的精确度和人工操作人员无法达到的速度解决问题。 第 4 章 影响分析和基本问题根源 影响的严重性 并非每个消失的容器或主机都是问题,并且无人使用的缓慢服务不需要立即加以关注。因此,先进的软件智能系统需要评估问题的严重性: 洞察力 在现代动态微服务应用程序中,基础设施和服务会根据需要以惊人的速度启动和停止。这就是正常运行系统的本质。 用户影响 容器消失可能是优化资源的预期事件,也可能表示需要立即缓解的意外中断。AI需要能够区分异常和预期变化。 自检测到的问题发生以来,有多少用户受到影响?理想情况下,该数值应基于实际的真实用户,而不是历史数据的统计推断。 挑战 受影响的服务调用 系统的某些部分并非专为人际交互而构建。在这种情况下,受影响的服务调用数量可以很好地估计严重性。 准确可靠地确定技术根源对于自动修复是绝对必要的,但这还不够。我们还需要判断异常情况的严重性,以及导致最初技术问题根源的因素。 业务影响 随着软件智能解决方案逐步覆盖端到端企业系统(从用户操作一直到基础设施),可以将系统性能映射到业务关键性能指标(KPI)。例如,零售商可以衡量系统减速期间所购之物的美元价值,并将其与过去的参考时间范围进行比较。 2应用程序:用户操作持续时间减少 基本问题根源 11月28日06:58 – 11月28日07:54检测到问题753(56分钟未解决)。该问题影响真实用户。 技术问题根源决定故障内容。 654998400差异分析 基本问题根源指出故障原因。 常见的基本问题根源如下: 问题根源 业务影响分析 •部署:从CI/CD工具链收集指标和事件可以将问题与特定部署关联起来(并在需要时回滚)。•第三方配置更改:这些可能与底层云基础设施或第三方服务发生的变更有关。•基础设施可用性:在许多情况下,主机或单个进程的关闭或重新启动会引发问题。 根据我们的依赖性分析,所有事件的问题根源都相同。 对问题发生前10分钟内所有受影响的服务调用和受影响的真实用户的分析表明了以下潜在影响。 检查目的地客户服务 1.17k受影响的用户 显示更多 响应时间减少 当前响应时间(19.6秒)超出自动检测到的基线(120毫秒)16,309% 业务指标分析 受影响的请求551/分钟 服务方式所有受影响的方式 为了确定基本问题根源,AI引擎需要能够访问CI/CD管道、ITSM解决方案和其他互连工具中的指标和事件。Dynatrace提供API和插件将第三方数据引入Davis。 对关键业务指标(例如转化目标或收入数字)执行额外分析。对昨天和一周前的问题时间范围进行了比较。 BB1-apache-tomcatjms-iis主机 CPU饱和状态100% CPU使用率分析日志 第 5 章 自