AI智能总结
中国移动研究院陆璐2023年10月 01网络与AI的融合发展趋势 02网络赋能AI的思考与实践 数字经济和AI发展对网络提出了新的需求 数字经济社会步入高质量发展新阶段,通用智能技术加速发展,促进网络从传统通信网络向新型信息通信网络加速转变 数字经济步入发展新阶段 通用智能加速发展 由高速增长阶段转向高质量发展阶段,成为全面建设社会主义现代化国家的首要任务 通用智能成为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量 提供通信、感知、计算、智能、大数据、安全等一体融合的新一代信息服务 网络与AI相互驱动发展 网络实现智能的普惠泛在,AI赋能未来网络的。智能自治。,二者“双向驱动”网络与AI的融合包括“AI赋能网络”和“网络赋能AI”两个方面 网络性能指标要求更全更高 已成为社会级服务通用智能时代需要随时随地的AI接入 网络复杂度逐代递增 网络 AI赋能网络 网络赋能AI 新型信息通信网络是实现AI泛在普惠的基础平台,使能AI成为泛在化的社会级服务 AI是满足移动通信网络新指标的关键路径,赋能网络提升网络运行效率、降低运维成本、增强用户体验 6G和算网一体赋能AI的思考 由场景驱动,重点解决网络泛在算力和平台化服务网络的构建问题,支撑数据/AI模型流动和一体化AI服务供给,助推AI成为社会级服务 6G网络支持网络能力聚合、AI数据和模型流转及AI任务调度执行等,提供按需匹配的、质量可保障的平台化服务网络 算网一体通过计算和网络的深层次融合,为AI提供新型智算基础设施、高效智算中心网络和高性能广域互联网络 01网络与AI的融合发展趋势 02网络赋能AI的思考与实践 016G架构赋能AI 02算网一体赋能AI “三体四层五面”6G总体架构 提出三体、四层、五面的6G总体架构,其中数据面、计算面、服务使能层、数字孪生体共同实现6G AI内生的信息服务全流程支撑 ①数据面:构建统一数据服务框架,以服务化功能的形式支持数据的采集、预处理、分析、存储、转发,为AI提供高质量数据 ②计算面:以任务为中心进行算网联合编排,为AI的训练和推理提供按需、个性化、可保障的算力资源 ③服务使能层:对AI服务需求进行分解,对数据、计算、连接资源进行编排调度 ④数字孪生体:为AI赋能网络提供真实的训练环境和可靠的预验证平台 6G架构新增数据面和计算面的必要性分析 l为什么需要新增数据功能和计算功能? 现有架构的不足 业务需求跃迁 能力问题: 服务于人与物+服务于机器和智能服务于连接管道+服务于信息的全流程服务于业务报文转发服务于感知+AI数据综合处理+规则式信息“生产”智能化信息“生产”+ l面向机器和智能的业务与传统业务特征不同,控制手段不同l面向新型感知数据的传输、处理没有相应功能设计 性能问题: l现有网络采集的数据在数量、质量、性能不足lAI的算法、数据、算力不能高效集成,与网络对象不能有机融合 网络需新增两类功能:以数据为中心的新的存储和交换机制,以计算为主的新的处理逻辑 l为什么新增的数据功能和计算功能需要设计新的独立面? •功能异构:①聚焦状态、AI模型等数据采集、预处理、存储、共享等;②聚焦AI计算等任务的分解、调度、执行等•指标各异:数据存储要求高可靠,数据共享要求高同步,AI计算要求高性能•演进不同:可用可靠存储、高速数据访问等数据技术,以及高性能计算等技术 6G架构数据面设计 数据面通过构建统一可信的数据服务框架,提供数据采集、预处理、分析、存储、转发服务,为网络AI提供高质量数据,为AI模型和参数的传输构建数据通道 数据面基本功能 l数据采集:以服务化功能的方式支持6G新型网络数据的采集l数据预处理:对采集的网络数据进行去重、过滤、校正等预处理,为网络AI数据分析提供其所需的高质量数据l数据分析:通过AI模型对采集和预处理的6G新型数据进行分析处理;建立数据管道,实现数据的随路分析l数据存储:用户基础数据和个性化策略数据分级分类存储,实现6G新型数据的统一存储l数据转发:扩展5G用户面的数据转发功能,支持6G网络新型数据的多设备数据传输 数据面对AI内生的支持 l数据按需提供:对网络数据进行采集、处理和存储,为网络AI提供高质量数据;l数据高效传输:为AI模型和参数的传输,提供满足其QoS需求数据通道 6G架构计算面设计 计算面以任务为中心进行AI在内的计算任务编排,基于服务化设计提供计算即服务,实现算网一体内生设计目标 计算面基本功能 l计算资源管理: l资源统一建模:对计算资源的度量和归类l资源注册:将计算节点的相关信息注册在计算面中,从而完成一个对计算节点的整体拓扑l资源感知:计算节点状态感知,对算力节点状态、资源等信息的动态感知能力 l计算任务编排:识别应用计算任务需求,按需进行计算任务分解和汇总,根据应用部署需求和算网资源情况,能够将应用动态部署到算力节点上l计算策略控制:根据初始算网业务需求,能够生成算网融合调度策略,并进行合理的算网路径规划l计算会话管理:增强会话模型,在会话QoS参数中携带计算相关需求 计算面对AI内生的支持 l多要素按需智能编排:实现AI服务的多样化供给l任务式的AI计算服务提供:构建端到端的AI学习和推理环境l资源与业务深度融合:实现面向AI业务高QoS的全生命周期保障 五面协同,使能AI内生网络架构 在控制面的全局控制下,基于统一的数据面、计算面,五面协同,共同完成AI计算任务的分解、调度和执行,形成跨网络功能面的AI能力体系,共同构成AI内生的网络架构 01网络与AI的融合发展趋势 02网络赋能AI的思考与实践 016G架构赋能AI 02算网一体赋能AI 算网一体创新技术筑牢高性能AI基础底座 中国移动持续推动算力网络技术创新突破,构建算力网络核心技术体系,已形成一批标志性算网一体创新技术,目标打造标准统一、技术领先、兼容开放的高性能智算底座,为AI应用强实筑基 算力网络核心技术体系 入算-算力路由CATS(1/2) 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度实现算网资源的全局优化 解决思路 问题本质 发现问题 在路由中引入计算信息,进行联合调度, 计算和网络是独立系统,算的负载和网的拥塞信息没有产生关联 云边以及边边调度之间出现“性能反转” (1)感知:路由系统感知计算资源(2)路由:综合网络和计算信息寻址选路 -计算负载高及网络队列深的条件下,边缘响应平均时延及尾时延远大于中心云-算的负载状态以及网的拥塞情况均是问题来源 形成算力感知网络CAN的核心方向-算力路由 网:增加带宽、配置专线... 当前进展:实现国际标准突破,推进样机研发和性能验证 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 研发算力路由样机,初步验证了在负载较重的场景下,全局时延优化和系统处理容量上约30%的性能提升 完成首个立项:CATS问题分析、场景及需求 入算-算力路由CATS(2/2) 算力路由的不同技术路线需要面向多种场景、不同范围等进一步深入研究,同时探索与AI结合的性能优化方案 ①明确广域和局域场景适用范围 ②探索underlay和overlay技术路线 需同步探索不同路线,一方面研究新型算力路由架构和协议;另一方面研究面向AI的应用层和网络层跨层协议、算法优化 需分析验证不同方案的协议开销和性能优化,研究量化各个方案的适用范围,重点探索面向AI大模型调度的算力路由方案 验证基于随机森林算法预测的算力路由优化方案 推动面向AI大模型的算力路由场景写入CATS WG标准 算力收集频率设置为15s,在两次收集之间通过预测反馈机制实现90%的平稳性提升,并进一步提升性能 基于CATS+AI的内容获取 AI-based Media Distributionand Traffic Steering BBC:ai4me.surrey.ac.uk 阿里巴巴:draft-an-cats-usecase-ai 进一步攻关算力路由核心技术难点,构建国内外标准体系,推动实现算网一体丰富产业生态 深化技术攻关攻关算力指标定义、通告频率优化、多维选路等关键技术 推进标准体系推动CATS架构等系列标准,扩展CATS工作组范畴从单域扩展至多域 丰富产业生态 15依托CFITI验证核心技术,推进共建算网一体孵化和评测环境 算内-算力原生CAMA 为融通智算生态竖井,中国移动联合产业提出算力原生CAMA原创技术,目标实现“应用一次开发、跨芯部署迁移”,研发“芯合”算力原生平台,开辟以软件为核心的智算产业链牵引全新路径 当前:“芯合”算力原生平台1.0 未来:“芯合”2.0升级 4大组件提供跨架构一站式解决方案 ü统一编程套件:统一编程模型+标准IDE+计算库ü源源转换工具:CUDA→SYCL转译ü跨架构编译器:图算融合编译+原生流转文件ü自适应运行时:异构设备统一抽象+动态映射执行 智算应用在3家智算芯片跨架构部署迁移 ü平台实现视频分析、图像识别等典型智算应用在英伟达、华为、瀚博等3家智算芯片上的跨架构部署迁移 ü迁 移 时 间< 2 0 s, 性 能 损 耗≤1 5 %,CUDA→SYCL转译率>90% 162023年中国移动合作伙伴大会上,中国移动联合13家合作伙伴发布国内首个支持智算应用一键式跨架构迁移的平台算力原生“芯合”,有望破解AI应用跨架构部署迁移的全球智算生态发展难题,可实现“应用一次开发、跨芯部署迁移”,显著降低了AI应用向国产化芯片的迁移成本和复杂度,是我国在基础软件领域破解国产智算生态发展的突破 算内-全调度以太GSE(1/2) AI大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,网络技术和设备能力成为提升GPU集群算力水平的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络性能决定GPU集群算力加速比 网络规模=K2/4(K=单台设备端口数量) 当前:网络性能和成本无法兼得 未来:革新以太技术、升级高速互联 •InfiniBand—专用网络、超高性能、成本昂贵 革新以太网底层转发及调度机制,以开放破垄断,突破传统以太性能瓶颈,以网强算,助力AI大模型训练 •传统无损以太—生态开放、性价比高、性能受限 算内-全调度以太GSE(2/2) 全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 •原型系统初步验证结果表明,在多种主流场景下,基于GSE互联的任务完成时间相较传统RoCE网络性能可提升2~3倍,且参数量越大,提升越明显 算内-在网计算NACA(1/2) 衡量分布式应用通信性能的重要指标是任务完成时间,通信瓶颈问题导致任务完成时间过长,在网计算突破现有计算模式,重构应用处理逻辑,降低节点间通信开销,为系统算效提升带来质变 在网计算实现分布式AI性能跃升 在网计算主要优势 网络负载不均衡 分布式AI训练以巨型流为主,ECMP等方式造成流量分布严重不均 流量需求不对等 多打一问题造成训练最后一跳和接收方之间Incast拥塞,长尾时延过大 通信模式不匹配 进程间多对一、一对多及多对多的通信需求在计算节点间目前以单播实现 算内-在网计算NACA(2/2) 在网计算NACA技术架构围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”,全面提升在网计算通用性,为分布式应用加速赋能 产业发展挑战 核心特征 应用场景竖井式 逻辑物理统一 NACA物理实现比传统计算实现方式更加亲和业务逻辑拓扑 面向分布式AI/HPC/大数据等应用需要设计专用系统,数据结构、数据类型实现有差异 通信原语统一 设计实现封闭化