AI智能总结
网络弹性正迅速上升至电信高管优先事项清单。认识到问题的重大意义,Kearney进行了一项研究,以评估全球第一梯队运营商和超大规模企业的网络弹性性能、愿景和挑战。他们反馈的见解增进了我们电信团队在此文中分享的经验和技术专业知识。这并非易事。网络的技术复杂性日益增加,而基于物理网络的连接时代已经转向了面向当今和未来的更加多维度的软件和云原生架构。日益严格的法规和合规标准突显了连续性和数据安全性的必要性。电信网络的韧性已跃升至电信运营商领导者议程的前沿,与网络安全、财务和客户体验目标以及环境、社会和治理(ESG)目标并列。社会对连接的依赖、客户对持续服务的崇高期望,以及媒体对重大停机事件的高度关注,都揭示了服务性能欠佳的潜在影响。从停机带来的财务后果,到网络中断持续发生导致的声誉损害和竞争力削弱,运营商尽可能实现不间断的服务性能已变得至关重要。 网络弹性:CTO、CEO和董事会的战略要务 1为应对这些挑战并满足客户日益增长的需求,对网络设计、工作方式、文化和能力的深刻反思至关重要。董事会、CEO和CTO需要更加关注韧性。面对日益增长的自动化和虚拟化,以及不断增长的网络和运营复杂性,不采取充分行动的风险也是巨大的。网络优势和可用性对于一级运营商维持差异化优势和其高端定价也变得至关重要。首先,我们深入探讨两大导致电信运营商面临风险的因素:故障数量增加和客户对持续在线服务日益增长的需求。接着,我们分析自身网络日益增长的复杂性。在此过程中,我们分享领先电信运营商为克服这些挑战所采取的步骤,并建议一个评估贵公司电信运营商网络弹性的起点。向移动和固定线路提供宽带数据已从一项基本服务(新冠疫情前)转变为一种基本人类需求(新冠疫情后),甚至可能重新定义马斯洛需求层次理论。考虑到所有这些因素,本文探讨了领导者为其网络最重要的因素和措施。有些与技术相关,而另一些则考虑文化和工作方式,以使电信公司更具韧性。 网络弹性:CTO、CEO和董事会的一项战略要务 2他们在网络可用性和大规模停机事件的最大影响上设定了明确的目标当今客户期望全程服务。停机可在社交媒体上几分钟内受到公开批评。领先运营商正在采取三项措施,以确保他们维护其声誉并应对不断变化的客户期望:提高客户期望顾客。一级运营商目标是核心网络可用性达到99.999%(或更高),每年每用户全国范围的服务中断时间不超过五分钟(见第4页图2)。同时,他们致力于提升尽快恢复服务的功能,以减少对用户的影响。如果确实发生中断,领先的运营商目标是在30分钟内恢复服务,考虑到网络作为关键基础设施的重要性。随着网络解耦合和虚拟化,软件应用程序数量呈指数级增长,变更量加速,该解决方案需要与供应商进行战略合作。自新冠疫情开始以来,对网络可靠性的期望已迅速发展。用户现在要求可靠的网络连接来满足日常生活的重要方面,例如购物、订餐以及远程工作与学习。过去,许多用户接受了电信运营商为提供可靠服务所做的最大努力,而现在,他们期望移动设备和固定设备具备弹性作为最低标准。当得不到这些时,像Downdetector这样的在线平台会向用户提供关于服务中断的实时信息,而用户在社交媒体上对服务中断的焦虑情绪的传播会放大这些信息。服务不足不仅会损害电信运营商的声誉,还会导致客户流失并削弱他们为支付费用所感知到的价值。因此,不间断的服务已成为当务之急。 停机损失的真实成本无论是间接价值还是内在价值都难以量化,因为不相关的因素往往会同时影响它们。因此,许多运营商冒着风险在分析中将它们排除在外。网络弹性最终关乎风险管理。上行空间可能有限,但下行空间很可能定义电信高管们的遗产。在电信行业,网络弹性不仅仅是运营要求,更是品牌声誉和客户忠诚度的核心要素。对于董事会和企业管理层来说,停机是声誉风险最高的时期。尽管其重要性至关重要,但方法往往是反应式的。在重大停机事件之后,对弹性的投资通常会激增——当商业案例变得显而易见时。一次主要的停机就足以造成破坏。其后果可能超过电信运营商在五年内累计对基础网络弹性所做的投资。随后的停机可能导致公众和监管机构怀疑运营商的结构性问题,甚至是无能。对于那些以“最佳网络”为价值主张的电信运营商来说,大规模中断的后果可能是灾难性的。在此存在挑战:尽管电信领导者能在故障后评估直接的 tangible 损失,但他们如何能准确地量化无形损失,例如声誉损害、客户流失和股东价值调整?虽然它们不易衡量,但在长期业务健康方面起着关键作用,其权重往往与直接运营成本相等或更大。评估它们与监管合规、网络安全以及受限的资本投资额度等其他紧迫优先事项交织。因此,无形损失需要更细致的方法,以优化资源配置和优先排序,从而减少或消除重大的故障。为了克服这种阻力并从长远来看解决停机问题,我们敦促领导者考虑三个层次的非物质价值以及与之相关的风险成本:直接价值、间接价值和内在价值(见图3页1)。直接价值通常与修复停机问题的成本和清算损害赔偿(例如将损害赔偿转嫁给负责停机的供应商)相关联。这通常是最小的价值影响类别。间接价值,包括客户流失,将通过客户转向替代供应商而影响到营业收入。量化内在价值延伸至品牌资产、股价、企业声誉、监管机构的立场以及整体商誉。 100关键严重程度事件的客户来电、搜索和报告数量网络弹性:CTO、CEO和董事会的战略要务 4将MTTC设置为低于10分钟对于最大限度地减少停电期间对客户造成的影响至关重要通信时间应少于10分钟。超过80%的呼叫,服务状态搜索,和downdetector.com报告量通常发生大约10分钟服务后冲击。服务影响时间(分钟)他们密切关注真实性能,并根据网络可用性制定弹性措施。他们与高管利益相关者、客户和监管机构沟通,并迅速作出回应。这和运营效率一样重要。这是一个全球电信运营商明确出现的机会领域。对于其他服务,例如电力公司,客户已经习惯于主动的通知和意外的停电近乎实时的详细信息,包括其原因、范围和预计解决时间。最近的数据显示,在停电后10分钟内与客户沟通对于尽量减少负面影响至关重要(见第5页的图3)。注意:MTTC代表平均通信时间来源:凯尔尼分析领先电信运营商借鉴了超大规模企业的做法,虽然这些企业通常不支持99.999%的可用性,但它们会主动与客户沟通,告知客户正在发生的事件及其对用户的影响。这有助于建立信任。类似地,一些电信运营商现在更快、更透明地与客户联系,沟通恢复计划以管理客户预期。严苛的评估源于对相关关键绩效指标(KPIs)的监控和管理。然而,仅仅追求KPIs的分数改进是不够的。最好的电信运营商采用一种综合方法,将预防服务和加速恢复服务的运营方法与沟通结合起来,以支持客户对服务质量和稳定性的认知。否则,他们可能会遇到我们看到一些自诩有值得称赞的KPIs的电信运营商所遭遇的厄运。他们在网络稳定性上过分自信地运营,最终却因被忽略或被视为边缘或极不可能的事件组合所引发的重大停机而措手不及。, 搜索状态e服务调用, 奥默客户#s port re om .c wndetector do or 有效我们见过领先的电信运营商制定了完善的业务连续性计划,这也有助于在停机期间最大限度地减少客户负面反馈。他们提供客户场所设备,在有线接入失败时自动切换到无线网络,在固定服务中断时提供免费移动数据等替代方案,在移动服务受影响时提供免费Wi-Fi热点。进行预防性投资并将客户服务提升到新的水平解决了影响网络弹性的两个最大因素,但这只是一个开始。需要考虑网络日益增长的复杂性,因为向基于软件的功能迁移导致网络元素虚拟增殖。采用快速发展的技术至关重要,同时通过电信运营商的流程和人来支持弹性也同样重要。沟通对声誉的重要性不亚于高效运营。 网络复杂性增长网络弹性:CTO、CEO和董事会的战略要务 6链路和节点的物理冗余一直是电信运营商长期关注的重点。然而,管理层面的软件有可能将故障传播到多个冗余网络区域,导致大规模故障。“自动化失控”就是这些基于软件、管理层面漏洞的例子,无论冗余程度如何,都能使整个网络瘫痪。为了解决这些问题,重点应该转移到缩小破坏范围。电信业正经历着变革,由5G、虚拟化、云原生网络架构、软件定义网络(SDN)和自动化(包括人工智能(AI))驱动。这种转型在网络弹性保障方面既带来了机遇也带来了挑战。通常,电信网络架构的弹性通过对冗余、增加备用容量以及缩小故障的爆炸半径来解决。爆炸半径可以通过松散耦合或分布式架构来减少,这些架构会破坏网络。尽管这些发展是积极的,但它们增加了复杂性,特别是在网络的管理平面,即负责编排、自动化和管理网络运行的应用层。在管理平面中,新的基于软件的漏洞正在出现,其影响范围往往遍及整个网络。在这种情况下,传统的网络工程方法,例如在节点和路径中增加冗余层,将不再足以保证对故障的弹性。网络正在发展,弹性措施也必须随之发展。网络正变得越来越基于软件,虚拟化和云化正在将网络设备转变为分布式云上运行的应用程序。网络因此变得更加自动化,在成本和服务速度方面带来了好处。它们也正从通常封闭的状态转变为更可编程、开放的平台。这使得第三方开发人员能够在现有平台之上构建和部署创新的应用和服务。 领先电信运营商正通过解耦、将管理面与服务面分离,或降低软件变更能力以防止大面积网络瘫痪的方式来应对管理面软件挑战。然而并非所有管理面的应用都可以解耦。有些应用是为引入网络变更而专门设计的。对于这些应用,正确的方法是通过将管理面分解为多个区域或限制一次性可应用变更的范围来减小其影响半径。此外,这些漏洞往往被忽视,因为管理层面的应用程序被归类为非承载流量,因此被认为不那么关键。结果,它们可能不会像控制和用户平面的组件那样被彻底测试和监控。事实上,我们调查的许多运营商表示,近年来他们的大型中断中有半数是由管理层面的事件引起的。“自动化失控”是一个新的漏洞的例子,无论冗余程度如何,它都能使整个网络瘫痪。 面向未来的能力网络弹性:CTO、CEO和董事会的战略要务 7其次,电信网络AIOps是一项处于成熟早期的新技术。尽管有耀眼的公关和相关行业媒体的报道,但现实是它的准确性有限,在网络领域尚未得到广泛采用。我们的电信调查表明,当今最先进的AIOps在预测事件方面的准确性低于50%。此外,并非所有弹性用例的AIOps成熟度都相同。人工智能擅长检测异常,因此停电检测和预防等用例更为先进,而自动化恢复和闭环保障仅在非常特定的场景下被采用。我们必须指出,然而,AIOps有其警示标志。首先,它几乎取决于可用的数据。AIOps依赖于快速访问来自多个来源的全面、一致和准确的数据:网络元素的遥测数据、监控实际服务的探针、来自外部来源的顶层数据表明客户的情绪,以及当前的网络拓扑。完成此任务最具有变革性的工具是AIOps——利用AI进行网络运营——它为网络管理提供了一种未来派的方法。AIOps的承诺在于其预测潜在问题的能力、实时检测故障,并且在问题对用户变得可感知或网络运营团队检测到之前自动启动纠正措施。虽然这些能力在传统网络管理技术中在一定程度上存在,但只有AIOps在减少客户影响方面提供了飞跃性的进步。人工智能正快速发展。若能有效利用,它将能更好地、更快地管理停机,同时最大化您弹性投资的价值。随着网络日益复杂以及软件漏洞的不断增加,不可能防止所有中断。因此,仅仅强调预防而缺乏快速恢复是不足的。重点应该转移到快速恢复上。 并非所有中断都可以预防,因此应更多地关注恢复。投资于AIOps驱动的恢复的边际美元所产生的回报,比投资于逐级增加冗余层同等数量的美元所产生的回报要更高。换句话说,人工智能是目前发展最快的科技之一。几年前,很少有人会预测生成式人工智能会给我们带来ChatGPT的奇迹。因此,AIOps的承诺不应被忽视。我们广泛调查的电信公司的CTO们一致认为,AIOps将在管理高效运营中发挥重要作用,得益于AIOps遍历网络拓扑和跨多个实体关联数据点的能力,检测时间和认知时间将显著降低。增强的检测将防止或减少客户感知的停机。由当前早熟与未来无限潜力之间的这种张力得出的结论是,实施AIOps需要一个结构化的方法。操作员应该把他们的数据管理做好,并首先关注