AI智能总结
云边协同AI网络技术白皮书 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队项目经理:杨帅深圳市腾讯计算机系统有限公司工作组长:陈炜深圳市腾讯计算机系统有限公司贡献专家:杨帅深圳市腾讯计算机系统有限公司李秋香深圳市腾讯计算机系统有限公司陈炜深圳市腾讯计算机系统有限公司方盼深圳市腾讯计算机系统有限公司李团营深圳市腾讯计算机系统有限公司时浩浩深圳市腾讯计算机系统有限公司关子轩深圳市腾讯计算机系统有限公司何宗应博通周大为博通王娜博通曲延光博通张骏安擎计算机信息股份有限公司李锴中国移动通信有限公司董勋百度网讯科技有限公司周曼中国信息通信研究院阮迪中国信息通信研究院郭利文深圳富联富桂精密工业有限公司电子科技大学 前言 DeepSeek发布后,AI应用流量持续上涨、推理和智能体驱动了算力需求的爆炸式增长,边缘算力开始成为中心算力的快速补充,未来将形成云边协同的分布式算力基础设施,边缘高集成轻量算网集群技术、云边协同技术等将成为分布式算力协同发展的技术加速器,在此背景下,本项目将分析分布式算力基础设施下AI推理及训练的流量特性及对网络的需求,研究边缘AI网络技术、云边互联网络技术、分布式算力的统一纳管调度技术以及云边协同AI能力等。 分布式算力基础设施覆盖云边包含中心算力机房、自有边缘算力机房、多云/第三方合作算力机房等。在此基础设施上提供各种AI应用及AI云服务,例如聊天机器人、AI知识库、云AI及智能体开发平台、图片生成等AI服务。 针对云边协同的分布式算力基础设施,一方面是构建边缘GPU算力网络集群网络,包含AI推理请求和存储的前端网络、GPU间通信的后端网络。另一方面是要构建连接中心算力和边缘算力的云边互联网络,为算力的统一调度和管理提供稳定可靠的网络通道,以承载推理请求及响应、模型文件、容器镜像及软件包传输等。 AI云平台等通常位于中心云,也逐渐扩散到边缘侧,构建分布式协同的AI平台,包含算力纳管、资源调度、推理及训练框架、对象存储、镜像源、数据传输等支撑组件。通过边缘算力的统一管理和调度,可实现算力的弹性扩展、更短的响应时延和更轻量地应用部署。 LLM云边协同AI发展包含三个阶段:阶段一边缘算力对中心算 力的快速补充阶段,该阶段云边间流量包含LLM推理请求响应、管控流量、LLM训练数据传输;阶段二LLM推理请求响应下沉到边缘算力中心,实现延时和成本优化;阶段三LLM推理和LLM训练进一步下沉到近场边缘侧的云边端协同AI。 本云边协同AI网络技术白皮书覆盖云边协同AI阶段一和阶段二,描述算力集群前端网络云边协同的背景及挑战、技术目标、关键技术、及对阶段三云边端协同AI的展望。 目录 一、云边协同AI发展趋势及挑战.......................................................1 (一)算力发展趋势.............................................................................1(二)AI大模型及应用趋势.................................................................1(三)边缘算力集群网络挑战..............................................................31.AI大模型训练对边缘算力集群网络的挑战.......................................32.AI大模型推理对边缘算力集群网络的挑战.......................................5(四)云边互联网络的挑战..................................................................81.AI大模型训练对云边互联网络的挑战...............................................82.AI大模型推理对云边互联网络的挑战.............................................10二、云边协同AI业务及技术目标.....................................................12(一)业务QoE目标...........................................................................14(二)边缘算力集群技术目标............................................................15(三)云边互联网络技术目标............................................................16三、云边协同AI网络关键技术.........................................................17(一)边缘算力集群前端网络关键技术............................................171.边缘算力集群管控............................................................................182.多租户支持和隔离............................................................................193.大容量NAT能力................................................................................204.长距离RDMA技术............................................................................20(二)边缘算力集群后端网络关键技术............................................211.负载均衡............................................................................................22 2.HyperPort..........................................................................................233.端到端调度........................................................................................234.无损网络无阻塞技术........................................................................245.异构组网............................................................................................256.FastCNP..............................................................................................257.网络可靠性........................................................................................26(三)云边互联网络关键技术............................................................271.云边互联高可用技术........................................................................282.云边互联高安全技术........................................................................293.云边差异化QoS保障技术................................................................304.云边高性能转发技术........................................................................31四、总结与展望.................................................................................32(一)总结...........................................................................................32(二)展望...........................................................................................33五、参考及缩略语.............................................................................34(一)参考...........................................................................................34(二)缩略语.......................................................................................34 图目录 图1推理过程中GPU之间数据传输...................................................7图2云边协同的AI大模型训练业务架构..........................................8图3云边协同的AI大模型推理业务架构.........................................10图4阶段一:快速补充算力资源云边协同AI..................................13图5阶段二:AI业务下沉的高集成边缘站点..................................14图6算力集群AI网络分类................................................................17图7云边互联网络架构示意图..........................................................27 表目录 表1边缘AI算力集群技术目标.........................................................15