AI智能总结
面向 AI 智算数据中心网络架构与连接技术的发展路线展望 目录 1.1 AIGC 市场前景 ................................................................................................................... 31.2 AI 网络架构对于 AIGC 应用发展的重要性 ...................................................................... 31.3 传统云计算数据中心网络架构 ........................................................................................ 41.4 智算中心网络架构 ............................................................................................................ 51.5 AI 网络架构所能容纳的最多 GPU 数量 ............................................................................ 51.6 AI 计算网络中对于 GPU 与 CPU 的权衡 ........................................................................... 6 2.1 InfiniBand 网络架构 ......................................................................................................... 72.1.1 InfiniBand 网络流控机制.............................................................................................72.1.2 InfiniBand 网络特点:链路级流控与自适应路由..........................................................82.2 RoCEv2 网络架构 .............................................................................................................. 82.2.1 RoCEv2 网络流控机制...................................................................................................82.2.2 RoCEv2 网络特点:强大兼容性与成本优化...................................................................92.3 InfiniBand 与 RoCEv2 的技术差异 ................................................................................... 9 3 AI 智算网络 800G/1.6T 主流传输方案......................................................................................9 3.1 800G 主流传输方案与 1.6T 传输方案展望 .......................................................................93.2 实际应用环境对传输带宽的影响 .................................................................................. 103.3 单模传输创新解决方案:基于 EBO(Expanded Beam Optical)的扩束技术 .......... 113.4 室外超大芯数传输安全可靠解决方案:预端接技术 ................................................... 13 4 AI 智算网络降耗增效解决方案................................................................................................15 4.1 创新光模块 LPO 与其他光模块的技术差异 .................................................................. 164.2 应对 AI 数据中心高能耗高热量的问题——液冷解决方案 .......................................... 164.2.1 罗森伯格液冷解决方案——灵活安装的配线架....................................................... 174.2.2 罗森伯格液冷解决方案——半浸没式 RJ45 跳线...................................................... 174.2.3 罗森伯格液冷解决方案——即插即拔防水连接器................................................... 18 参考文献.......................................................................................................................................19 白 皮 书:面 向A I智 算 数 据 中 心 网 络 架 构 与 连 接 技 术 的 发 展 路 线 展 望作 者:万 雨 声,孙 慧 永,张 德 胜,何 雯 思,于 素 景,鉏 丽 云,王 冬 雪,陆 友 锋,卫 嘉 杰,邱 怀 兵 1 AIGC及智算网络简述 2024 年以来,全球 AI 市场热度不衰。Open AI 旗下 Sora 的发布,再次拔高了 AI 内容创作的上限。同时,国内人工智能领域也迎来了新的焦点——Kimi,这款 AI 大模型产品凭着高达 200 万字的上下文窗口技术,将国产 AI 大模型“卷”出了新高度。业界普遍预测,2024 年将成为 AI 大模型应用的爆发之年。 1.1 AIGC 市场前景 IDC 的数据显示,全球企业对生成式人工智能(下文简称:“AIGC”)解决方案的投资热情不断上升,预计到 2024 年投资额将达到 200 亿美元,而到 2027 年,这一数字预计将激增至超过 1400亿美元。这一趋势不仅凸显了 AIGC 技术的商业潜力,也预示着 AI 将引领一个创新与增长的新时代。在这样的背景下,AIGC 的未来增长需要坚实的支撑——而 AI 网络架构正是这一增长的“骨骼”,它正逐渐成为推动 AI 发展的关键力量。 1.2 AI 网络架构对于 AIGC 应用发展的重要性 AI网络架构的重要性在AIGC应用的发展中显得尤为突出。在AIGC工具方面,厂商正通过深度技术投资,挖掘大量数据并提升算力,使得这些工具从基础应用转变为强大的生产力工具。而在AI社交领域,大模型的发展重点在于融合AI技术与用户互动,创造富有情感和温度的互动体验,旨在重塑用户体验并探索新的商业模式。其中,自主研发能力和丰富的训练数据成为了打造有竞争力产品的关键。我们不难发现,这两个赛道的发展都依赖高效、可靠的网络架构,以支持AI大规模训练集群的算力和显存需求。 白 皮 书:面 向A I智 算 数 据 中 心 网 络 架 构 与 连 接 技 术 的 发 展 路 线 展 望作 者:万 雨 声,孙 慧 永,张 德 胜,何 雯 思,于 素 景,鉏 丽 云,王 冬 雪,陆 友 锋,卫 嘉 杰,邱 怀 兵 第 3 /19 页 1.3 传统云计算数据中心网络架构 传统的云数据中心网络架构较为成熟,但存在着诸多痛点,导致其无法完美适配 AI 网络架构需求。实际上,传统的云数据中心网络的设计基于对外提供服务的流量模型,以南北向流量为主导,云内部东西向流量作辅。承载智算业务时,传统云计算数据中心面临着如下挑战:带宽收敛比较高:Leaf 交换机上下联带宽收敛比设计,导致上下联带宽比约为 1:3;互访高时延:云内部服务器间互访都需经过 Spine 交换机,增加转发路径,提高时延;网卡带宽低:单台物理机通常只有一张网卡,带宽不超过 200Gbps,限制了整体带宽。这些问题共同影响了智算业务的高效运行,需要通过构建新的网络架构来应对需求。 白 皮 书:面 向A I智 算 数 据 中 心 网 络 架 构 与 连 接 技 术 的 发 展 路 线 展 望作 者:万 雨 声,孙 慧 永,张 德 胜,何 雯 思,于 素 景,鉏 丽 云,王 冬 雪,陆 友 锋,卫 嘉 杰,邱 怀 兵 1.4 智算中心网络架构 AI 智算网络采用 Fat-Tree(胖树)架构,有效解决了传统云数据网络面临的挑战。这种架构通过1:1 的无收敛配置,确保了网络的高性能和无阻塞传输。其次,为了降低时延,网络设计将 8 台交换机构成一个资源池,池内节点单跳通信,而跨集群通信则通过汇聚交换机,最多实现三跳传输,从而优化数据传输效率。 此外,网络采用 RDMA 技术,绕过操作系统内核,允许主机之间直接内存访问,可显著降低同集群内部单跳可达场景的时延,相比 TCP/IP 网络提升了数十倍的时延性能。针对带宽需求,AI 智算服务器通常配备 8 张 GPU 卡和 8 个网卡插槽,以应对多机 GPU 集群中可能出现的超过 50Gbps 的跨机 GPU 通信带宽需求。随着 800Gbps 网卡的商用化,单机对外带宽有潜力达到 6.4Tbps,进一步满足了 AI 应用对高带宽的需求,为 AI 智算网络提供了强大的数据传输能力。 1.5 AI 网络架构所能容纳的最多 GPU 数量 AI 网络的性能和扩展性与其网络架构和交换机端口密度紧密相关,随着网络层次的增加,可接入的GPU 卡数量也随之增长。在胖树网络架构中,例如端口数为 P 的交换机最多可连接 P/2 台服务器和其他交换机,其最大容量可达 P²/2 张 GPU 卡。在更复杂的三层网络架构中,通过增加汇聚和核心交换机组,网络容量可以进一步扩展至 P³/4 张 GPU 卡。随着技术的进步,市场上已经出现了能够支持高达 524k 张 GPU 卡的网络解决方案,这展示了 AI 网络架构在扩展性和性能上的巨大潜力。 1.6 AI 计算网络中对于 GPU 与 CPU 的权衡 AI 服务器之所以更倾向于使用 GPU 而非 CPU,原因在于 GPU 在处理 AI 任务时展现出的卓越性能。GPU 拥有大量并行处理核心,能够同步执行众多计算线程,特别适合进行深度学习等 AI 算法中涉及的大规模矩阵和向量运算,这些运算对于 AI 模型的训练和推理过程至关重要。GPU 的并行化特性显著提高了计算速度,而 CPU 虽然在处理复杂逻辑和单线程任务方面表现出色,但其核心数量较少,难以匹敌 GPU 在大规模并行处理方面的能力。 此外,GPU 拥有高达 14MB 的寄存器总量和 80TB/s 的高速数据传输能力,这使得 GP