您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:赵奇慧:Cloud Native is Good, but How to Apply it in Telecom Network ? - 发现报告

赵奇慧:Cloud Native is Good, but How to Apply it in Telecom Network ?

AI智能总结
查看更多
赵奇慧:Cloud Native is Good, but How to Apply it in Telecom Network ?

Part1:网络云背景 CMCC网络云现状 中国移动从2015年起以推动网络转型为目标,建设电信级增强网络云,明确下一代网络整体设计,制定NFV/SDN技术方案体系,通过6+期的试点有效推动网络云的商用进程。截止去年,整体规模已超13万服务器,承载5GC、IMS、EPC等46+类网元,云化比例超85%,其中5G云化比例达100%。 部署应用类型: 总体布局:核心+边缘两级数据中心架构 •核心:核心网网元(如4G网元、5G控制面)、VoLTE服务、智能网、彩信中心、网络云管理系统等•边缘:核心网用户面网元(UPF)、MEP、垂直行业业务 •核心:“8+X”大区,物理资源池集中建设,主核心网元逻辑分省•边缘:率先规划地市,按需下沉 网络云技术参考架构 NFVO(NFV Orchestration) VNF:虚拟机化网络功能 负责网络业务的部署,比如5GC网元,以及跨厂家、跨数据中心的全局资源管理 •运行在虚拟化平台上的网元软件•最小部署单元是一个或者多个VM VNFM(VNF Manager) OMC:操作维护中心 •网元的配置、告警监控、性能管理等 VIM(Virtual InfrastructureManager) NFVI:NFV基础设施 •包括虚拟机管理软件和硬件•硬件包含计算、存储、网络、安全等设备•Hypervisor直接提供虚拟计算、虚拟网络、虚拟存储等能力 Part2:网络云引入云原生分析 IT与CT云原生差异 IT模式:大型互联网企业E2E全栈架构,自建自营模式为主;先实践再总结,持续迭代;更关注弹性和业务敏捷性CT模式:主流运营商多厂商集成,设备采购&交付模式;注重标准化、规范化;更加关注电信级业务的高可靠性网络云云原生可借鉴IT云原生成功经验,但需要结合CT建设方式及业务特点,综合定义符合CT实际情况的云原生引入技术及方法。 网络云云原生演进的驱动力 当前基于虚拟化技术的网络云已进入规模商用阶段,持续向云原生演进可进一步提高网络资源利用率、加速业务创新、提升管理运维效率,推动网络云从易用向好用演进。 网络云引入云原生价值 云化现状和挑战 基础设施 资源利用率提升 虚拟化实现资源共享,提升资源利用率 •容器颗粒度小,降低资源碎片化•裸机容器可以节省虚拟层开销 现状:虚拟化技术实现底层硬件通用化及资源共享挑战:虚拟化层开销,资源碎片化,可进一步优化 网元业务 业务敏捷 •通过容器+微服务加快新功能上线速度,快速创新探索新空间•引入公共基础PaaS能力,支持应用快速创新部署 云化实现业务敏捷上线 现状:基础设施软硬件集成就绪下,VNF上线及扩缩容加速挑战:针对新业务场景,部分网管、业务存在敏捷创新需求 管理运维 管理提效 自动化提升运维效率 •入网敏捷:入网自动化提效•升级无损:升级自动化提效•弹性扩容:扩容自动化提效 现状:网络云自动化测试工具提升测试效率 挑战:版本入网/升级周期长,流程断点多,人工依赖程度高,自动化待提升 Part3:对一些关键问题的思考 云原生技术引入现状 从全球主要运营商云原生商用情况看,引入云原生是发展趋势,但受限于技术和产品成熟度等情况,目前以容器引入为主,实际规模商用案例少、建设规模相对较小,整体仍处于商用探索阶段。 基础设施及能力平台:虚机容器、裸机容器按需选择,一般选择在新建资源池中引入;部分引入PaaS能力支撑业务功能和管理运维 管理运维:引入设备商→运营商交付中转仓库、自动化测试工具、一致化部署验证环境是主流 云原生技术引入优先级 对云原生技术按收益、难度评估分为A、B、C三类优先级,可有计划、按需求逐步试验和引入。具体引入场景可遵循先支撑后核心、先2B后2C、先边缘后集中的引入策略。 裸机容器资源池:裸机管理 如何管理裸机是首要问题。针对不同的场景,业界已经给出了各自的解决方案,比如Openstack Ironic方案、RackShift方案以及Metal3-io方案等 场景1容器层以虚拟层为底座构建 使用DPU卸载CLoudAgent Ironic 单独使用Ironic方案的缺点,Ironic内部逻辑比较复杂且发放的裸金属实例无法获取性能等信息,同时存在安全问题,配合DPU卸载CLoudAgent方案,可以解决安全问题DPU+Nova增强完全替换Ironic方案,方案简洁同时解决了安全问题 场景2容器层单独成池 RackShift等 Metal3 引入DPU智能网卡,卸载管理、网络、存储等虚拟化任务,配合虚拟层实现裸金属弹性发放、虚拟网络加速以及存储网络安全 单独成池需适配存储、SDN、裸机管理组件,在现阶段不适宜Metal3源于Ironic,与Ironic有一样的问题RackShift等裸机管理软件同K8S有待结合 裸机容器资源池:容器安全 容器比虚拟机有更好的易用性和更高的性能,但容器在安全性方面存在短板。在工程建设阶段,除了大家所熟知的容器共享宿主机内核的安全问题外,还有很多不容忽视的安全问题 微服务:网元业务微服务划分 网元业务微服务化建议遵循五大基本原则。结合设计原则、标准化要求、电信网元现状及发展趋势,网元微服务可分为接口类、业务类、中间件类,每类可包含一个到多个功能性微服务。此外,可辅以微服务治理体系,提供运行态网元微服务管理,降低端到端管理难度。微服务拆分相关公共能力可沉淀为PaaS实现多网元共享。 微服务:网元无状态设计及灰度升级 当前,网元设计已经或多或少考虑无状态化(如将用户数据集中到UDM中、VNF内部使用独立数据库存储业务上下文等),可进一步对网元内部数据进行分类,考虑多种数据状态及处理机制,实现状态管理精细化和优化。灰度升级可以支撑业务在不浪费过多额外资源的情况下实现升级,依托无状态化设计,灰度升级的优势将进一步显性化。 Ø网元无状态设计方法 •NF将用户业务/策略等稳态数据存储到外置数据网元(UDSF/UDR),并按照网元可靠性要求对相应数据网元做好备份•对于无法/不建议从NF内部剥离的状态数据,可首先考虑在网元内部/依托PaaS使用独立的数据库组件进行存储,并对该数据做好备份、一致性管理等•对于网元内部不重要的状态数据,可默认为无状态,具体场景包括:数据/状态不重要、可随时抛弃并重新生成、具有冗余且切换时间极短等•对于网元无法消除或忽略的状态/数据,可通过对承载状态/数据的网元模块单独设计可靠性机制(如主备/环状、数据实时镜像等)•无状态的NF模块可采用多副本设计,各副本能力一致,负载均衡 数据独立存储,做好读写管理,例如选择Redis多副本数据库+哨兵模式增加数据可靠性 业务按照服务/微服务独立升级/迁移/扩缩容,更灵活 自动化:CI-CT-CD流程优化思路 基于网络云建设的实践经验总结,依托云原生理念,建议进一步完善"产品研发-测试认证-交付运维"端到端衔接和循环反馈机制,提升全流程自动化、敏捷化水平,充分释放网络云化价值红利 ②研发流程优化:运营商验收测试与厂商研发测试工具共享,打通运营商测试与厂商研发测试环节,实现小步快跑和版本管理 ③入网流程优化:在运营商测试环境进行FOA功能测试,FOA以工程验收和稳定性测试为主,提升交付速度 管理:性能数据管理 传统性能数据管理方式 使用Prometheus管理性能 •Prometheus以PaaS功能形式和K8S环境同步部署•双路径性能数据管理:网元保留原始性能数据上报模式,并通过PushGateway方式向Prometheus上报业务性能数据;且Prometheus同步支持资源层KPI收集•支持在本地实时展示网络性能、局域快速故障发现,系统相对轻量灵活•可基于K8S+Prometheus+HPA实现自动扩缩容管理 •传统网元(PNF、VNF)的业务性能数据通过网管OMC接口上报•VNF-OMC为私有接口,OMC-OSS为企业定制化接口•传统网元PM数据一般通过本地测量文件形式存储和传输,测试/传递周期大于5分钟 管理:CNF生命周期管理 当前行业主要采用Helm+K8S+Operator(optional)的方式对CNF进行部署、升级、状态运维、删除等操作,CNF生命周期管理流程需与现有NFV架构及MANO流程进行融合。 架构:云原生技术架构设想 考虑Kubernetes、Prometheus、Helm、Cloud Controller Manager等云原生领域开源软件已逐步成为事实标准,未来网络云的云原生技术架构可基于容器层充分整合编排能力,推动NFV架构向更简洁、更灵活演进。 MANO/网管 •NFV管理编排技术架构可简化 ‐CIM承担VNFM、OMC对CNF的生命周期管理、业务配置、扩缩容管理等工作‐依托CCM/CIM扩展PaaS服务能力,无需配备单独设备•NFVO/OSS已初步具备容器管理能力,可面向云原生迭代和更新‐补充DPU、PaaS服务等编排能力,增强多云管理和接口标准化‐适配CI/CT/CD工具,完善自动化流程、功能和接口 SDN系统 •为进一步简化技术架构,SDNC功能可由CCM集成 ‐容器场景下,业务逻辑网络通常由K8S CNI实现,无需SDNC‐多集群管理模式下,仅节点物理网络需SDNC编排,也无需加载复杂的Overlay技术栈,可由CCM承担网络设备配置功能 智能网卡/DPU •可采用DPU智能网卡实现弹性裸金属及网络卸载,交由CCM管理 ‐弹性裸金属的生命周期管理、节点网络的编排等功能和接口需制定,可在CCM中实现 Extra:OIF CFN WG推广介绍 为推动算力网络生态建设及成熟发展,中国移动联合19家合作伙伴在OIF成立了ComputingForceNetworkWorkingGroup(CFNWG,算力网络工作组),研究AI推理/训练类应用的跨厂商、跨域、跨架构部署和迁移解决方案。 •CFN WG当前围绕智算领域AI推理/训练类应用在多算力节点、异构算力资源环境下的部署和迁移场景探索解决方案•该场景涉及的关键技术包括:泛在调度、DPU裸金属及虚拟机管理、异构算力抽象与池化、跨架构编译与运行•项目拟于2023年11月下旬推出首批成果•Welcome to join us! Contact:zhaoqihui@chinamobile.com Thank you!