您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:6G零中断网络设计白皮书 - 发现报告

6G零中断网络设计白皮书

信息技术2025-06-18中移智库王***
6G零中断网络设计白皮书

前言 从5G商用化进程的加速到万物智联时代的开启,及物联网、工业互联网、自动驾驶、远程医疗等新兴技术的蓬勃发展,人类对网络的需求不再局限于基础连接,而是向极致可靠性、全域覆盖与智能自治能力迈进。当前5G网络虽在时延和带宽性能上实现显著突破,但商用部署中仍暴露出多重短板与潜在风险,部分关键场景存在业务中断隐患。 6G作为下一代移动通信技术,对网络稳定性与可靠性提出了更高要求。本白皮书聚焦核心网领域,汇聚行业专家的研究成果与实践经验,深度剖析4/5G商用网络事故带来的启示、前瞻性预判6G网络面临的可靠性挑战,提出6G“零中断”网络(Zero-OutageNetwork,ZON)愿景和目标、设计“零中断”网络三体架构,即网络本体原生抗毁、灾备护体物理止损、高稳智能体智能提效,并论述6G可靠性设计的关键要素。致力于为人类社会提供永续在线、无缝切换、自主愈合的通信服务,为业界同行提供参考,共同推动6G技术发展,助力实现万物智联的美好未来。 1.14/5G商用事故统计分析 随着4G和5G技术在全球范围内的商用推广,通信网络的规模和复杂性急剧增长。近年来,全球通信网络中的重大故障事件也屡屡发生,给运营商和用户带来了严重的影响。根据互联网公开数据和行业报告不完全统计,在2021年至2024年期间,全球通信行业发生了超过66起重大网络事故,影响范围广、恢复时间长、经济损失严重。如何提高网络设备的容错性、提升整网抗信令风暴的鲁棒性以及故障自愈的高效性是6G网络必须优先考虑和解决的问题。 事故诱因复杂,以网络故障和动网操作为主。4G/5G网络的故障呈现出软硬结合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 过载是主要现象。占比约69%,通常因局域异常未能及时恢复或隔离,再加上4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 语音和数据业务会同时受影响。占比约88%,因语音和数据业务强耦合设计,一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过5个小时,主要因为发现异常耗时长、人工定界、诊断、恢复耗时长。 1.24/5G商用事故启示 1.2.1技术演进启示 5G网络在商用与能力演进过程中暴露出的问题和影响,要求在6G设计之初充分考虑并规避。 降低网络复杂度,减少故障风险和定位时长:5G网元和接口数量增加,长链路交互增加了故障诊断/定位的耗时和难度,当网络信令风暴发生后需要E2E协同控制才能有效恢复。 降低资源池故障的跨层传导,做好亚健康监控和容错设计:5G网络在虚拟化改造后,采用资源池、通用硬件替代传统的通信专用硬件,亚健康故障检测和定位定界难度增加,三层兼容性问题增加,对网络可靠性带来挑战。需通过通用硬件层的高可用设计、基础软件层的稳定运行及业务软件层的容错机制协同保障,实现系统级可靠性,确保服务持续稳定。 加固枢纽节点应灾能力,减少服务化信令冲击:NRF、SCP作为5G服务化、信令转发的中枢节点,一旦故障影响较大。随着网络规模的扩大以及用户量的扩增,服务化接口信令冲击、大包传输、链路层资源不足的风险相应增加。 加强边缘网隔离性,减少和公网相互影响:边缘网络与公网可能存在控制面交互、数据同步,一旦发生链路异常或传输异常,影响边缘业务的 正常运行,同时,边缘网络访问公网也存在安全攻击风险和故障传导风险。 提升网络敏捷拓展能力,保持基础网络的稳定性:随着3GPP标准的不断更新,许多新业务拓展常需多个基础网元升级,业务发展不敏捷,也波及已商用业务的在线体验和基础网络的稳定运行。 1.2.2容灾管理启示 容灾组网的完善程度直接决定了网络在面对灾难或突发故障时的恢复能力。当前许多网络在面临大规模故障时,无法保证服务的连续性,恢复过程缓慢。 做好基础容灾备份,避免二次危机:部分运营商因缺少冗余设计,导致灾难发生时业务无法平滑迁移至备用路径或系统,短时信令冲击引发二次危机,故障影响范围持续扩大、定位复杂度进一步增加,恢复时间延长。 做好风险化解,避免大面积瘫痪故障:数据网元(例如UDM、HSS)作为移动通信网核心所在,该设备的故障将引发超大规模的用户重注册、进而引起信令风暴,需要考虑相应机制分担数据网元故障后的风险与压力。 做好动网预演,避免操作不当带来风险:部分事故是由于管理机制不完善,在网络升级改造、调整维护时缺少预演预验证手段,导致一些误操作的风险不可提前预估与防范。 重塑打底逃生网,弥补2G退网后的不足:2G低制式网络虽然技术落后,但其是4/5G网络天生的兜底平面,为基础通信需求提供了最后一道屏 障保护。随着2G的退网,这一天然屏障将丧失。6G网络需要考虑相应机制和4/5G网络形成新形态的高低制式间的互补与兜底。 1.36G网络可靠性挑战分析 6G网络将覆盖更广泛的应用场景,赋能多行业、多领域的智能化服务。ITU-R在2023年明确了6G六大核心场景,包括沉浸式通信、超大规模连接、极高可靠低时延、感知与通信的融合、人工智能与通信、泛在连接。这些新场景普遍要求网络提供更高稳定性,同时对网络可靠性也提出一些新挑战。 1.3.1人工智能与通信,智能与可靠的博弈 AI与6G通信的深度融合在提升网络能力的同时,也引入多重可靠性风险。AI模型对数据质量高度依赖,数据偏差可能导致故障预测失准或资源调度失效;模型黑箱特性使决策过程难以追溯,关键场景下故障定位与修复效率受限;AI系统面临数据污染、模型攻击等安全威胁,可能引发错误决策或网络异常;此外,AI驱动的核心网依赖稳定算力支撑,算力资源故障将直接影响智能功能运行。这 些挑战要求6G网络在AI模型鲁棒性、决策透明性、系统安全性及算力可靠性等方面强化设计,平衡智能化与可靠性的技术演进。 1.3.2智能体通信,新型模型和实时组网需要动态保障 在6G网络中,AIAgent将随着技术的快速发展而得到广泛应用,带来全新可靠性挑战。智能体基于环境自主学习的特性,使其行为模式难以预测,导致网络设备动态调度结果的不确定性增加,传统流量管理模型失效;智能体通信以AI模型、原始数据等机器媒体为主,传输需求更复杂(如持续低延迟交互、高度并行通信),颠覆了传统人类通信的流量模式,对网络带宽动态适配与话务冲击应对提出更高要求;机器人集群、自动驾驶车队等场景依赖P2P动态组网,需实时组建协作网络并共享环境信息,现有网络的静态子网管理与路由机制难以满足动态协同需求,亟需提升网络动态组网与智能调度能力以保障业务可靠性。 1.3.3超大规模连接,瞬时信令冲击加倍 6G超大规模连接场景下,海量物联设备接入(每平方千米可达百万至亿级)对网络可靠性形成多重挑战。终端规模百倍于5G时代,网络异常恢复时的大规模重连易引发信令风暴,远超现有网络抗“浪涌”能力;终端种类繁多导致行为难以预估,异常信令与安全攻击风险显著提升;传统“踢用户下线”的容灾手段因部分终端不具备自动上线能力而失效,亟需创新流量控制与容灾策略,保障网络在超密集连接下的稳定性。 1.3.4沉浸式通信,提出更高连续性和稳定性要求 6G沉浸式通信聚焦“体验保障”,面向VR/AR、远程协作等场景,对网络可靠性提出多维挑战。多模态数据传输要求音视频、触觉等数据流实现毫秒级超低时延与精准同步,避免交互失真;通信、算力、AI等资源需实时协同,任一环节异常均可能导致业务中断,亟需建立跨维容灾接管机制;用户移动时,边缘算力与网络会话需在毫秒级内完成无缝迁移,对网络动态资源调度、智能切换能力提出严苛要求。现有网络架构难以满足沉浸式业务对连续性与稳定性的需求。 2.1愿景和目标 为了体系性的构建高可靠的6G网络,中国移动提出“零中断”网络这一全新设计理念,其核心愿景是“运行态的网络长稳服务、应灾态的业务零损保障”。它表达两层含义,一是在网络设计、建设和运维的每一个环节,都尽可能地减少故障发生的可能性;二是在故障发生的第一时间,能够以最快的速度恢复服务。 零中断网络的目标可以分解为以下四个方面,采用不同技术逐步达成。 (1)日常运行主动预防。在日常运行时主动采取有效措施提前发现和预防,包括风险预见和动网拦截,如版本升级、网络扩展、日常维护等动网操作时,不影响基础网络稳定运行以及业务的正常体验。 (2)常规异常快速自愈。在网络发生设备亚健康、信令冲击、网元故障、服务器故障、链路故障等常规异常时,网络能够自我感知和自我修复,保障用户不下线、业务快恢复、用户无感知、数据零丢失、故障最小隔离等。 (3)极端异常兜底保障。在网络发生主备资源池异常、传输承载故障、多系统异常、停电或自然灾害等极端异常时,网络能够逃生到应急网络或自主运行,保障高优先级用户的基础通信服务,同时可提供有效的故障定位、隔离、恢复手段,避免完全不可用以及长时间不能恢复等重大事故。 (4)极致业务绝对保障。针对工控医疗等涉及人身安全和生产制造的特殊业务,网络能够端到端管理协同应对各类异常场景,提供“绝对的零中断、低延时、确定性”保障。 2.2设计理念 基于4/5G商用网络故障启示、6G网络的新增挑战、及6G零中断网络目标,建 议6G零中断网络设计兼顾系统性和时效性两个方面。 1、系统性,指的是从全层级、全场景和全时空三个层面系统考虑。其中“全层级”聚焦网络的各个层面主动设计防护,旨在从源头降低故障发生;“全场景”聚焦各类异常场景针对性设计,旨在异常发生后能够有效恢复;“全时空”聚焦越来越复杂的网络环境开展端到端防护,旨在精准定界快速恢复。 2、时效性,指的是“早预防、早干预、早隔离、早恢复”,旨在从异常产生到恢复,全方位提高异常处理的效率,缩短业务中断时长。 2.3总体架构 基于零中断网络的愿景、目标和设计理念,面向核心网领域,从网络本体、灾备护体、高稳智能体这“三体”出发构建零中断网络总体架构,以实现网络全层级、全场景、全时空的业务保障和不间断运行。 1、夯实网络本体,在架构和功能设计阶段秉承内生高可靠设计,降低故障发生可能。网络本体犹如战士自身,技能过硬是根本。网络本体包括网络架构、网络功能、信令网、网络云等各层级,是故障发生的起点和故障修复的落脚点,应秉承高可靠内生设计,降低问题发生的概率、提升网络韧性、增强信令冲击防控能力,构建稳健、敏捷、易扩展、易隔离、易恢复的基础网络。 2、完善灾备护体,主动预防、快速恢复、兜底保障多措并举,全方位保障网络稳定。灾备护体犹如战士的铠甲盾牌和急救包,防护与急救缺一不可,包括孪生平面、容灾平面和逃生平面。通过孪生平面实现异常发生前主动预防和拦截、 通过容灾平面实现异常发生后有效接管、快速恢复,通过逃生平面实现传输异常、资源池异常、自然灾害或大面积停电等极端情况下的兜底逃生和应急保障。 3、引入高稳智能体,域内自治自愈、跨域协同容灾、AI风险防控点面结合,根本上提升异常处理效率和精准度、提升跨域协同容灾能力。高稳智能体犹如科技武装和作战指挥,面向6G多网并存、多域协同、多维融合及智能体通信的复杂性,引入智能化手段替代以人为主、单点排障的传统运管模式。同时,需要增加“AI风险防控”有效评估和拦截智能化本身引入的风险。 此外,建立网络可靠性评价体系,形成闭环反馈也至关重要。网络可靠性评价体系犹如全面的作战能力评估体系,既能直观的反应系统整体可靠性级别,包括主动防御能力、基础设施持续运行能力、关键领域支撑能力、风险应急能力等,也能通过可靠性相关指标见到不足和短板,持续优化改进,对可靠性体系形成闭环反馈,实现持续改进的零中断目标。 3.1网络本体原生抗毁 3.1.1网络架构高可靠