AI智能总结
全球企业2000强面临的4000亿美元的问题 业务中断不可避免。当今最成功的组织之所以能够适应系统压力并迅速恢复,是因为它们进行了大量的数字韧性基础投入。但计划外停机仍在考验着他们的恢复能力,在许多情况下还会造成重大损失。 研究结果很清晰:停机造成的财务影响应该让每位董事会和技术领导者都把数字韧性作为首要工作。管理者们必须了解停机对组织的影响,并采取必要的措施来恢复整个数字足迹。 停机产生的实际财务影响和性质很难确定。研究人员往往只关注传统IT问题造成的停机,而忽略了网络安全事故带来的事件,同时也忽略了连带产生的经济影响。我们对之前掌握的不完整的情况并不满意。 Gary SteeleSplunk执行副总裁兼总经理 通过与跨国研究机构牛津经济研究院的合作,Splunk确定了全球企业2000强每年因停机造成的总成本为4000亿美元。这些公司平均每年因数字环境意外故障产生的损失高达2亿美元。 事实表明,我们的看到的问题只是冰山一角。我们发现了大量的隐性成本,比如对市值造成的数十亿美元的影响,这些影响可能会对公司造成更大的经济损失。数据还证实了我们长期以来的猜测:网络安全和基础设施或应用程序问题都是 造成停机的原因。 我很高兴和大家一起分享《停机的隐性成本》这一首创报告,该报告研究了计划外停机的直接成本和一直被忽视的成本,揭示了造成停机的最常见原因,还揭示了最具韧性的组织如何预测和预防其影响。 停机深入探究 目录 每周,媒体似乎都会以“跨国电信公司遭遇全球系统故障”和“网络攻击导致医院暂时关闭,患者和病例面临风险”这样的标题来吸引我们的目光。首席执行官的道歉、社交媒体的舆论风暴和股票的暴跌。 而这些只是直接成本。隐性成本也会对公司的总体业绩造成不小的影响。比如说股价下跌。上市时间延迟,进而为竞争对手吸引客户制造机会。品牌声誉受损,削弱客户和投资者的信任。影响还不止如此。 3停机深入探究4停机不仅仅会影响眼前的工作9停机的原因多种多样13通过智能技术投入解决停机问题17韧性较高的组织深谙此道22应对组织内的停机问题24每个行业的停机情况看似不同25全球企业 停机成本27方法学 不难看出,对于一家公司来说,每年的这些成本和其他隐性成本可能很容易超过2亿美元。而且我们发现,在系统恢复后的很长一段时间内(实际上可能长达几个月),企业都要为这些后果付出代价。 计划外停机1(业务系统的任何服务质量下降或中断)会让客户不悦,产生不便,甚至出现生命危险。对公司而言,停机会造成监管罚款、收入损失、加班工资等实际经济损失。 所有这些成本都会叠加在一起。 我们还探究了停机的原因,我们发现停机的原因往往是网络安全问题,也可能是基础设施或应用程序问题。这表明,成功的缓解策略需要同时考虑这两个方面。数据显示,采取这种方法的公司处于领先地位。与大多数受访者相比,他们的韧性更强,出现的停机时间及其后果更少。 我们对来自全球企业2000强的20002名高管展开了调研,并在牛津经济研究院的帮助下计算出,每年因停机产生的平均成本为4000亿美元。这相当于每家公司损失2亿美元,约占利润的9%,3无论从哪个角度看,这都是一项数额不小的损失。 在本报告中,我们将深入探讨停机问题:停机的成本、停机的原因以及领先组织的正确做法。 让我们深入了解一下。 停机不仅仅会影响眼前的工作 “如果我们看一下停机时间的成本,这是一个庞大的数字,因为可能有15位高级技术人员围坐在一张桌子旁,以每小时x美元的成本研究事件的根本原因是什么。我们应该怎样应对?我们如何管理连带的损害?我们如何管理客户?我们如何管理监管机构?” - Chris Russell Miller,法国巴黎银行英国个人金融部信息技术和网络风险主管 深入分析停机的隐性成本 停机的直接成本会影响企业的整体业绩 到目前为止,收入损失是最大的财务影响,但其他直接成本也会增加。 停机的经济影响并不局限于单个部门或成本类别。为了更全面地了解情况,我们对首席财务官和首席营销官以及安全、ITOps和工程专业人员展开了调研,他们可以就糟糕的数字体验带来的更广泛的品牌和财务影响发表看法。我们让受访者从多个方面对停机成本进行量化,很明显,停机是一个业务问题,而不仅仅是技术问题。 根据调研中的回答,牛津经济研究院计算得出,全球2000强企业每年因停机造成的损失高达4000亿美元。平均每家公司每年会产生2亿美元的损失,约占利润的9%。每分钟的停机时间平均要产生9,000美元的成本,即每小时54万美元。 是什么推动了这一数字的增长?让我们来深入分析一下。 收入损失是最大一项直接成本,这一损失每年高达4900万美元。该成本是第二大成本的两倍多。显然,收入损失令人扼腕痛惜。在所有受访者中,61%的人认为这一损失的破坏性“非常明显”或“极其明显”,而根据参与调研的首席财务官的说法,收入需要75天才能恢复。 直接成本的下一项是每年平均2200万美元的监管性罚款。79%的受访技术高管确认,他们所在的国家或地区对停机时间有严格的规定,例如欧盟金融部门的《数字运营韧性法案》(DORA)。这种监管趋势使得韧性对于保持合规性和避免可能影响总体业绩的罚款至关重要。 停机还会如何影响公司的财务数据?根据来自首席营销官的数据,公司平均需要花费1400万美元通过开展品牌信任活动来修复声誉,另外还要花费1300万美元增加公共关系、投资者关系和政府关系项目。首席营销官们也承认停机时间对他们工作的影响:72%的首席营销官表示,尽量减少停机时间对他们的工作“重要”或“非常重要”。 无论从客户获得多少利润,都必须从这些利润中扣除停机成本。你会失去收入,如果这种情况继续发生,你会失去声誉,并遭受长期业务损失。“ 网络攻击也会消耗预算。67%的首席财务官受访者表示,当他们的组织遭受勒索软件攻击时,他们通常会建议首席执行官和董事会直接,通过保险公司或第三方向不法分子支付赎金,要么就是最常见的情况,通过这三种方式结合支付。勒索软件的直接支付额(1100万美元)和勒索软件攻击的勒索赎金(800万美元)每年共计1900万美元。 首席财务官表示,他们建议首席执行官和董事会支付赎金 —Mauli Tikkiwal,某跨国制造公司IT总监兼董事会成员 停机的隐性成本不容忽视 相对而言,停机时间的隐性成本更难衡量,也不那么明显,但其影响可能不亚于直接成本。停机会产生潮水般的副作用,波及组织的方方面面。从安全、ITOps和工程团队陷入根本原因分析的迷宫,到首席营销官被迫将营销和公关重点转向危机管理,甚至是首席财务官眼看着股价暴跌而束手束手无策。 受访者还对停机可能带来的个人风险感到不安。39%的技术受访者担心会被认定对事故负有个人责任,另有38%的受访者担心停机可能会影响他们的绩效考核,甚至导致被公司解雇。 最重要的隐性成本是什么?28%的受访者表示,停机会让股东的身价降低。发生一次停机事件后,企业的股价预计会下跌1%至9%(平均2.5%),平均需要79天才能恢复。多么痛的领悟。 发生停机时,整个团队必须从高价值工作(如推出新的数字产品和体验)转向应用软件补丁和参与事后分析。从业人员都知道,事件发生时,每个人都会被叫到会议桥上,在问题解决之前,谁也不能脱身。生产效率急剧下降,创新速度和产品上市速度放缓,从而损害了竞争地位,总成本可能高达数千万美元。 恢复时间漫长 停机事件发生或得到补救后,组织需要数月时间才能恢复。 停机会降低生命周期价值 当客户比你更了解你的数字体验时,这绝对不是什么好事。然而,41%的技术主管承认,客户“经常”或“总是”最先发现停机。这可能会破坏客户体验,削弱客户忠诚度,并在事件引发社交媒体热议时损害公众认知度。事实上,40%的首席营销官认为,停机会影响平均客户终身价值(CLV),另有40%的首席营销官表示,停机会破坏经销商和/或合作伙伴关系。 当然,与所有系统故障一样,声誉受损、净推荐值以及人们在社交媒体上发帖都是这类事件的附带损害。“ - Chris Russell Miller,法国巴黎银行英国个人金融部信息技术和网络风险主管 停机对营销的下游影响 首席营销官表示,停机使他们的营销部门在竞争中处于劣势 增加了危机管理方面的预算 29%的受访者表示,他们曾因停机而失去客户,另有44%的受访者表示停机会损害他们的声誉。首席营销官表示,事件修复后平均需要60天才能恢复品牌健康。这迫使首席营销官迅速采取行动,否则就会陷入困境。 停机的原因多种多样 "一般情况下,网络安全停机是理解停机最昂贵的方式"。— Luca Panattoni,家乐福IT和数字化转型主管 停机不仅仅是ITOps或工程方面的问题。它还是一个安全问题。了解最常见的问题原因可以帮助公司管理事件响应,并有可能防止公司再次受害。我们的受访者证实了造成停机的两个原因:我们的受访者证实了造成停机的两个原因:56%的停机源自网络钓鱼攻击等安全事件,44%的停机源自软件故障等应用程序或基础设施问题。在这两种情况下,罪魁祸首均为人为错误,这也是最难发现和补救的问题。 虽然大多数系统的可用性很高,但成百上千个系统的停机时间加在一起也会有所增加。全球2000强企业中,与网络安全相关的停机时间平均为466小时,与应用程序或基础设施相关的停机时间平均为456小时。 大多数情况下,网络攻击的发生是因为我们没有跟上技术发展的步伐及其对业务的威胁。“ —Mauli Tikkiwal,某跨国制造公司IT总监兼董事会成员 人为错误会导致停机 人为失误(如软件或基础设施配置错误)是造成停机的首要原因,半数受访者表示停机“经常”或“非常经常”由人为失误造成。出现这样的错误会导致性能错误,从而拖累系统性能或危及公司安全。 准流程来处理这种不寻常的事件。成为头条新闻的重大停机事件(公用事业公司服务中断、酒店网络攻击)提醒我们,恢复正常服务运行并非易事。 最常见的停机原因: 1与网络安全有关的人为错误2与ITOps有关的人为错误43软件故障4恶意软件攻击5硬件故障6网络钓鱼攻击7第三方软件中断 ITOps和工程事件:除了人为错误外,软件故障是造成停机的最大原因,因为企业采用的最新开发和部署实践方式更加复杂,故障点也更多。49%的受访者表示,软件故障“经常”或“非常经常”导致停机,34%的受访者将矛头指向硬件故障。修复软件故障平均需要16个小时。根据我们的经验,企业恢复服务的时间通常比这要快得多,但我们怀疑受访者在计算时包含了修复根本原因和进行彻底事后分析的时间。 我们也需要最长的时间来发现和补救人为错误。平均17到18个小时后,各组织才会注意到事件的发生。而从人为错误导致的停机和服务质量下降(如延迟)中恢复过来,还需要67-76个小时。延迟或运行缓慢对系统造成数天的影响是常有的事。 安全事件:继人为错误之后,安全受访者认为恶意软件和网络钓鱼攻击是最常见的停机原因。同时,安全受访者表示,一些最罕见的事件需要更长的时间来检测和补救。例如,“零日”漏洞的说法来源于利用之前未知的系统漏洞进行入侵。因此,检测和恢复时间可能会延长,因为很难找出根本原因,而且企业往往缺乏标 4基础设施配置错误、容量问题和应用程序代码错误 我们每天都会遇到停机,有时一天会发生多次——延迟问题、性能下降或服务完全瘫痪。“ —摩根大通IT和云安全架构执行总监Poonam Khemwani 根除问题的根源 63%的技术受访者表示,他们总是能从根本上解决停机事件,但这并不意味着他们能阻止同类事件再次发生。在基于云的系统和传统系统共同构成的复杂混合环境中隔离问题非常困难。54%的技术高管承认,他们有时会故意不修复停机的根本原因,原因可能是因为他们不想增加原有系统的技术性债务,或者他们已经计划停用造成 故障的旧版应用程序。 在事后分析过程中查找并解决根本问题是行业最佳实践,但如果没有适当的工具,事后分析可能会很困难,而且很耗时。正确的事后分析可以使整个基础设施更