您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:刘鹏:算力路由(CATS)技术标准进展和展望 - 发现报告

刘鹏:算力路由(CATS)技术标准进展和展望

AI智能总结
查看更多
刘鹏:算力路由(CATS)技术标准进展和展望

中国移动研究院基础网络技术研究所刘鹏2023年10月 目录 1算力路由的提出背景 2算力路由技术介绍及标准进展 3算网一体技术和标准展望 中国移动算力网络发展历程 中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年来持续开拓创新,全力推进算力网络发展,在业界取得广泛共识,理念深入人心 开创新方向,打造新高峰 布局新体系,搭建新平台 算力网络是以算为中心、网为根基,网、云、数、智 、 安 、 边 、 端 、 链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。 •融入国家战略性新兴产业计划•发布“天穹”算网大脑、“百川”算力并网平台、NICC新型智算中心体系•发布“321”终端算力产品体系•开创东数西算、数据快递等任务式服务•算力路由标准取得突破•400G超长距离传输创世界纪录•...... 发布新理念,融入新战略 •提出十大技术发展方向和核心技术体系•发布算网服务体系1.0•启动算力网络试验网CFITI•与中国算力网、信息高铁联合打造科学装置 •发布中国移动《算力网络白皮书》和发展倡议•算力网络成为公司”1225“战略的重要组成 ——中国移动《算力网络白皮书》 “算网一体”是中国移动算力网络发展的深化 构建算网一体技术体系 面向新型算力应用极致需求,构建算网一体创新技术体系,助力实现高性能基础网络 算力路由 算网数字孪生 在网计算 广域高吞吐 最大限度兼容以太网,构建无阻塞、高带宽、低时延新型智算中心网络 突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源 打破算网边界,网络内生算力,实现计算任务跨网络节点分布式协同 突破广域传输性能瓶颈,实现RDMA高效传输拉远,实现算间高性能互联 算力路由的提出背景 018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度 解决思路 问题本质 发现问题 在路由中引入计算信息,进行联合调度, 计算和网络是独立系统,算的负载和网的拥塞信息没有产生关联 云边以及边边调度之间出现“性能反转” (1)感知:路由系统感知计算资源(2)路由:综合网络和计算信息寻址选路 算:降低负载、计算资源预留...网:增加带宽、配置专线...增加网络建设、运维成本造成大量计算资源的闲置 -计算负载高及网络队列深的条件下,边缘响应平均时延及尾时延远大于中心云-算的负载状态以及网的拥塞情况均是问题来源 通过仿真发现在路由中引入算力信息在低中重载情况下均有一定的优化效果。在负载达到60%时,整体系统的算力可用容量提升33.17%,端到端平均时延提升35.29% 目录 算力路由的提出背景 1 2算力路由技术及标准进展 技术进展 1 标准进展 2 3算网一体技术和标准展望 算力路由的典型场景和技术分析 技术路径分析 典型场景:AR/VR等新型计算和网络实时延敏感业务 AR/VR时延需要低于20ms保障用户体验,包括: 1.当前缺乏将计算资源与网络状态相结合以决定最优路径和节点的方案。 2.现有的解决方案通常为off-path,如DNS、ALTO或L4/L7负载均衡,查询地址/状态的时延随着协议层的升高而升高! •传感器采样延迟:<1.5ms(客户端)•显示刷新延迟:≈7.9毫秒(客户端)•GPU的帧渲染计算延迟≈5.5ms(服务器)•网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络) 观察1:计算延迟和网络延迟在同量级 •仅根据负载选择边缘站点1,总延迟≈22.4ms•仅根据网络选择边缘站点2,总延迟≈23.4ms•根据两者选择边缘站点3,总延迟≈19.4ms 观察2:仅根据网络或计算资源状态,找不到最佳服务器实例 结论:需要同时考虑网络和计算资源状态,将流量动态引导到适当的服务节点 结论:算力路由将具备更高的性能 IETF立项文稿:draft-ietf-cats-usecases-requirements 算力路由的技术挑战 算力路由需要解决“传什么”、“怎么传”以及“怎么用”等问题,需设计自适应算力通告机制和新型多因子算路算法,实现算力和网络的联合优化 技术需求:简单高效的算力信息封装 问题1:传什么?——算力扩展 算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性 统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGP Path Attribution扩展封装计算时延信息 技术需求:自适应的算力通告 问题2:怎么传?——合理通告 提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告通过仿真建模量化分析算力信息通告信令开销的影响,得到通告信令开销与路由调度成功率的最优解 通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点 问题3:怎么用?——路由求解 技术需求:新型算网多因子算路算法 在BGP距离矢量上叠加算力向量,改变了BGP选路方法,影响BGP路由决策。简单叠加将导致路由不收敛 构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost 算力路由需要统一的度量标准,网络的度量目前已经比较成熟,算力的度量还缺乏统一的标准,需要着重对算力资源、需求以及使用进行度量 算网度量的基本思路——面向不用目的的度量方法 ①面向应用部署:针对算力资源的度量——获取较为全面的、非实时的算力信息,例如节点类型、位置信息、内存大小等②面向任务调度:针对算力状态的度量——获取较为简单的实时算力信息,例如算力节点的实时评价信息、计算时延等 关键技术2:算力感知 感知是算力路由的前提,需要打通网络领域、计算领域、应用领域的信息边界,为算网一体化调度和编排管理提供基础 •设计多维资源感知体系,基于BGP、IGP、Netconf等协议扩展探索算网一体感知和通告协议,支持从单一维度的感知向多维资源感知演进。 •搭建算力感知原型系统:依托算力网络试验网,在信息港初步完成功能验证,包括网侧因子、算侧资源因子和应用侧因子感知功能,实现云套餐功能,智能化导航等功能。验证了算力感知方案的可行性和可实施性,具备了在省份进行试点的条件 关键技术3:路由寻址 通过对算力资源/服务信息的感知,将算力信息引入路由域,在路由层直接决策并转发服务请求至目标服务节点,实现算力和网络的联合优化 ①资源和服务状态感知通告 点算力路由转发:结合算力路由信息表和业务需求,动态、按需调度和转发SRv6结合:“算力+网络”可编程、路径可指定 算力信息感知:控制面协议扩展携带算力信息,生成并更新算力拓扑业务需求感知:IPv6/SRV6扩展头中加入应用ID和SLA需求 算力路由信息表:在路由信息表中新增算力信息算力感知的路由调优:基于感知的算力信息动态调整 同步探索Underlay和Overlay路线 •Overlay算力路由方案:基于应用层进行选路决策,从算、网、业务多目标开展联合优化,形成智能调度方案•Underlay算力路由方案:研究从单一距离向量路由到算力、距离多要素叠加融合路由演进,基于IPv6/SRv6等协议进行继承性创新,形成新型路由和寻址机制 实践进展 算力路由系统的实现根据网络部署情况,支持集中式、分布式、混合式等多种组网方案。从集中式方案开始,分阶段逐步推进算力路由实验验证 阶段I集中式方案 •完成算网控制器和算力路由网关原型样机开发,构建业内首个集中式算力路由验证系统•推进广东珠海现网试点验证,验证业务承载量提升30%以上,算网综合资源利用率提升32%以上 阶段II端到端算力路由系统验证 •开展规模性部署的CATS技术方案验证•开展CA-BGP等新型协议的验证测试•分布式算力路由样机已进入平台测试阶段 分布式算力路由样机 《算力感知和算力路由构建算网一体化调度》荣获工信部2022年ICT优秀案例“卓越科技创新奖” 《算力感知和路由方案》通信世界全媒体“2023年度算力应用案例十大标杆” 《算网一体技术体系关键技术创新案例》荣获CCSA TC6102022年度“最佳实践案例” 《面向算网一体的算力路由技术攻关和标准突破》方案成功入选2023届未来网络领先创新科技成果 目录 算力路由的提出背景 1 2算力路由技术及标准进展 技术进展 1 标准进展 2 3算网一体技术和标准展望 算力路由在IETF的标准化历程 历经4年,中国移动在IETF发起成立算力路由工作组(CATS, Computing-Aware Traffic Steering)并担任主席,是IETF路由域近10年由中国高校/公司牵头成立的两个工作组之一 IETF1062019IETF1092020IETF11020213次CFN/Dyncastside meeting CATS WG成立中国移动担任主席2023 Mar 2022 July IETF115WG FormingCAN BoF 2022 Mar IETF113Non-WG FormingCAN BoF 2022 July IETF114CAN进展汇报 场景和需求达成共识220+人参会,包括半数AD 推动场景、需求、技术路线初步达成共识 共识2:应用层和路由层都可以做优化 算力路由推进过程中的问题 4年共计收集并总结出需求、场景、架构等方向80多个问题 问题研讨 第一次BoF期间,分别从路由层和应用层解决网络和计算联合优化的问题进行讨论,论证了算力路由技术的必要性。 第二次BoF期间,再次强调场景、需求,主要讨论charter,会后逐步解决了所有的质疑 CATS面向AR/VR、车联网等新型多节点部署服务的场景,制定算力路由的场景、需求、架构标准 当前,许多服务会创建多个服务实例,这些实例通常在地理上分布在多个站点。CATS工作组主要考虑网络边缘节点如何引导服务的客户端和提供服务的站点之间的流量的问题。——CATS WG Charter 范围: •基础工作:问题声明、场景、需求、技术分析等•总体架构:定义、组网、功能模块等•其他基础工作:计算指标的分析、控制面和数据面的定义、基于现有协议的实现、潜在新协议需求的分析 里程碑: •2023年7月,采纳问题声明、场景、需求、技术分析等基础文稿已完成•2024年7月,采纳架构文稿•2025年11月,提交架构文稿至RFC发布序列 https://datatracker.ietf.org/wg/cats/about/ CATS工作组的文稿情况 CATS目前已经有25篇文稿,完成场景和需求立项,当前聚焦在架构、计算指标定义等工作 计算Metric: 场景和需求: draft-du-cats-computing-modeling-description-02draft-dunbar-cats-edge-service-metrics-00draft-shi-cats-analysis-of-metric-distribution-01 draft-ietf-cats-usecases-requirements-01,工作组文稿draft-an-cats-usecase-ai-01,CATS+AI大模型场景draft-yuan-cats-end-to-end-problem-requirement-00draft-huang-cats-ps-and-requirements-of-l2-cats-01 技术分析: 其他:draft-ddcb-cats-sfc-bgp-applicability-00 (sfc-bgp方案) draft-wang-cats-awareness-system-for-casfc-00(cats与SFC结合)draft-kj