您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [上海贝尔]:智算无界:AIDC的超越和重构 - 发现报告

智算无界:AIDC的超越和重构

信息技术 2025-09-16 - 上海贝尔 邓轶韬
报告封面

1.1 智算新基建:全球竞争与市场爆发 近年来,以生成式人工智能为代表的新一代人工智能技术加速创新,成为各国抢占科技革命与产业革命优势地位的技术制高点。2024年3月,中国政府工作报告提出:“深化大数据、人工智能等研发应用,开展‘人工智能+’行动,打造具有国际竞争力的数字产业集群“。人工智能将在推动产业升级、促进新质生产力加快形成等方面发挥重要作用。2025年1月,美国政府宣布OpenAI、软银和甲骨文三家企业将在美国建设支持AI发展的基础设施,即“星际之门”。该项目的初始投资为1000亿美元,并计划在未来4年内扩展至5000亿美元。从全球范围看,以人工智能为代表的ICT行业已成为中美博弈的“技术主权战场”,双方在标准制定、核心供应链、数字规则(数据跨境/网络安全)等维度激烈竞争,全球ICT产业技术生态与市场格局正在加速重构。 生成式人工智能基于海量数据训练、推理生成新的输出,并能以文本、音频和图像等形式创建新内容。智算中心是支持生成式AI工作负载的新型数据计算中心,基于AI计算架构,提供AI应用所需算力服务、数据服务和算法服务的算力基础设施,它融合高性能计算设备、高速网络以及先进的软件系统,为人工智能训练和推理提供高效、稳定的计算环境。据测算,2023年全球生成式AI市场规模,包括硬件、软件以及服务等,达675亿美元,到2028年有望增长到5160亿美元,复合年化增长率达50.2%;2023年,中国生成式AI市场规模为1200亿人民币,到2028年将超过5000亿人民币(图1-1)。 据中国信通院测算,2023年全球计算设备算力总规模为1397EFlops,其中通用算力为497EFlops,智能算力(换算为FP32)为875EFlops,占总算力比例为63%。未来五年,全球算力规模仍将以超过50%速度增长,至2030年全球算力将超过16ZFlops,智算占比超过90%。2023年,中国通算规模59EFLOPS,未来至2028年将以17.3%的年增长率达132EFLOPS;同期,中国2023年智算规模为414EFLOPS,未来将高速增长到2028年1436EFLOPS(图1-2)。全球算力基础设施高速发展,而以支持AI/LLM为目标构建的新型智算中心成为数字新基建的重要底座。 随着大模型训练参数以及GPU集群规模的不断提升,智算中心网络组网规模持续扩展,接入速率从200Gbps升级至400Gbps/800Gbps乃至1.6Tbps,无损、低时延性能要求严格,推动智算中心网络以及智算中心间跨区域网络的高速发展建设。未来五年,全球及中国智算中心以太网交换机将以36%CAGR持续快速增长,全球交换机发货量从15.6百万端口爆发增长至114.9百万端口,中国AI以太网交换机占比全球总量三分之一(图1-3)。预计2025年中国智算中心总规模1356亿元,网络设备市场约475亿元,其中,800Gbps端口高速增长,白盒交换机占比持续上升,主流互联网公司大量采用白盒交换机降低网络建设成本(图1-4)。 近期,DeepSeek的出现显著提升了算法效率,其开源免费策略使中小企业和个人开发者可获取高性能模型,极大降低AI应用门槛。在制造、医疗、金融等领域,深度学习驱动的预测性维护、医学影像分析、量化交易等应用,显著提升行业效率。在物流路径规划、电网调度等场景中,深度强化学习可实时响应环境变化,优化资源分配。在个性化服务领域,通过用户行为数据的深度挖掘,实现千人千面的推荐系统、广告投放等,提升用户体验与商业价值。DeepSeek算法与芯片深度适配,不仅降低对高端GPU的依赖,也推动算力供应链自主化。高效的算法一方面减缓了AI训练的算力需求,另一方面AI应用的普及导致AI训练与推理的侧重点发生转变,预计未来几年推理算力占比将远超训练部分。 1.2 技术破局:从GPU集群到分布式协同一体 建设和运营智算中心需要巨大的资本投入,包括购买昂贵的AI芯片、建设高密度机房等。AI工作负载对网络带宽和存储性能有极高的要求。AIDC需要优化网络架构,例如采用高吞吐量的以太网或InfiniBand,并部署高速、大容量的存储系统。互联网公司通常具备强大的云计算、大数据、人工智能等核心技术积累和研发实力,能够快速迭代和推出创新性的AI服务和解决方案。许多互联网巨头具备自研硬件(如AI芯片)和软件的能力,可以实现软硬件深度协同优化,提升智算中心的性能和效率。电信运营商拥有覆盖全国甚至全球的骨干网络和接入网络,这为智算中心互联提供了得天独厚的网络优势,可以为用户提供低延迟、高带宽的连接服务,尤其是在边缘计算场景下更具优势。 AI的发展依靠算力、算法和数据。OpenAI在2020年提出ScalingLaws(尺度法则)。对于基于trans-former的大模型而言,在AI训练中有以下结论:1)模型规模要大:即增加模型参数量、数据集和计算量,就可以得到性能更优的模型。2)模型参数量、数据集以及计算量之间存在幂律关系。3)随着模型规模增加,模型会出现涌现特质——未预期到的新能力,推动模型性能提升。尺度法则正在驱动大模型硬件部署走向更大集群。早期AI训练网络互联规模均在千卡左右,随着AI大语言模型的参数、训练量指数级提升,算力卡互联规模从千卡提升到万卡,目前行业已经开始部署10 万卡集群。 在云计算阶段,云服务器主要是CPU服务器,每台服务器配置1-2颗CPU芯片即可。AI工作负载分为两大类 — AI训练以及AI推理。人工智能训练过程将首先创建AI模型。它包括数据集合,模型选择,模型训练,模型评估,模型部署和模型监控,涉及密集使用GPU。模型开发完成后启动推理业务,为最终用户提供业务支持或与模型交互。因此大模型的训练基于更大规模的GPU并行计算,单服务器内部署GPU数量提升至4颗、8颗甚至更多,并通过纵向扩展的方式实现更多GPU互联形成超节点。当前英伟达超节点Scale Up互联可达576颗GPU。 智算网络在确保AI训练和推理方面发挥着关键作用。它包括设计良好的后端网络和前端网络架构以满足AI严格要求的工作负载,其特点包括高可靠性、高速、高容量、低延迟和无损。后端网络用于互连高价值计算密集型AI训练、AI推理所需的GPU和其他高性能计算(HPC)工作负载,前端网络支持连接对于AI工作负载、通用工作负载(非AI计算)以及AI工作负载的管理。多个智算中心通过具备高通量的智算网关互联,并经OTN 全光网络提供高品质的大带宽连接。 近年来随着数字中国、东数西算等国家战略的实施,东数西存、东数西训、东数西渲等场景对海量数据跨广域网数据传输需求日益凸显。随着分布式AI的发展,跨智算中心互联等广域数据迁移场景中数据传输的规模越来越大,AI对网络吞吐性能要求越来越高,必须建设分布式一体化算力网络(Scale Outside)实现算力调度。当前广域网带宽从100Gbps逐渐发展到400Gbps、800Gbps甚至1.6Tbps,但CPU算力增速已经远低于网络带宽的增速,网络带宽的剧增对业务发送端和接收端服务器的数据收发处理能力提出了更高要求。在传统网络中,数据从源系统内存复制到网络堆栈,经过网络发送到目的地,接收端经多个步骤将数据复制到目标系统内存中,因此基于CPU算力的TCP/IP协议栈无法满足高速网络收发性能要求,成为广域高吞吐数据传输性能提升的瓶颈。 RDMA可以通过广域网络实现高速、低时延数据传输。RDMA技术使用内存零拷贝、内核旁路等技术,将网络协议栈全卸载到网卡处理,不依赖CPU算力即可实现高性能数据收发处理,是海量数据广域高吞吐传输的关键技术。面向RDMA的广域网技术要求包括两类:一是满足承载不同RDMA协议的技术要求,二是满足海量数据传输需求的高带宽、大象流负载均衡、精细化流控等技术要求。借助RDMA技术,通过分布式智算中心网络实现区域内多智算中心协同计算,可以满足更大规模的算力需求。 总而言之,算力的需求正在快速增长。由于AIGC的出现,大模型的训练和推理导致智算超越了通算。智算中心节点规模越来越大,对网络性能(吞吐和时延)要求越来越高,其发展趋势是从scale up到scaleout,直至scaleoutside。出于成本的考量,800Gbps及以上速率白盒交换机将在智算中心网络中占据更重要的地位。 随着人工智能技术的飞速发展,特别是大模型参数万亿/十万亿级的突破以及大模型应用逐渐在社会、生产、生活中的广泛深入,智算/超算中心作为支撑大模型训练和推理的基础设施和核心载体,其重要性日益凸显。 2.1 核心挑战:超低时延、无损传输与能耗困局 智算中心网络作为连接海量计算资源(万卡/十万卡级)的关键组成部分,其性能直接影响到大模型训练的巨量数据、分布计算以及并行同步的效率和效果。然而,当前智算中心网络在大规模组网架构、低时延无损网络技术、高吞吐负载均衡以及智算中心间高速无损互联等方面仍面临诸多技术挑战。 1)智算网络面临的挑战 组网规模与复杂度激增 大模型训练依赖数千甚至数万张GPU的协同计算,例如Llama3-70B模型在1024个GPU上训练时,单epoch产生的网络流量高达85EB。传统数据中心网络难以承载如此庞大的东西向流量,导致网络拓扑设计复杂度呈指数级上升。组网规模的扩大还引发了负载均衡难题,传统ECMP(等价多路径路由)算法在“少流大流”场景下易引发链路拥塞,使网络有效吞吐量骤降至理论值的10%-60%。 超高带宽与低时延需求 大模型训练中,GPU间梯度同步和中间激活值传递需满足微秒级时延要求。以InfiniBand和RoCEv2为代表的RDMA技术虽能将应用层时延降至5微秒,但在万卡集群中仍面临瓶颈。例如,在GPT-3训练中,通信耗时占比高达20%,而万亿参数模型中这一比例可能飙升至50%。此外,单端口带宽需支持数百Gbps甚至Tbps级别,以应对每秒数TB的数据传输需求。 网络稳定性与容错能力 大模型训练周期长达数月,任何网络中断都可能导致任务回滚甚至重训。例如,微软超算中心训练GPT-3消耗19万度电,若因网络故障中断,将造成巨大资源浪费。智算网络需具备毫秒级故障检测与自动恢复能力,同时通过冗余设计和快速重路由机制保障训练连续性。 自动化部署与配置管理 智算网络涉及数万节点和百万级参数配置,人工调优效率低下且易出错。例如,自适应路由方案需动态感知全局拥塞状态,而传统逐任务调优仅能实现70%的有效吞吐。自动化部署需解决多厂商设备兼容性、配置策略一致性等问题。 能效与成本优化 智算中心单柜能耗已达50kW,训练GPT-3一次消耗19万度电,间接排放二氧化碳超105吨。在万卡集群中,网络设备功耗占比可达20%-30%,需通过光电融合交换、低功耗协议栈等技术降低能耗。 2)智算网络关键能力要求 超低时延与高带宽 •技术路径:采用RDMA技术绕过GPU内核协议栈,结合InfiniBand、RoCEv2优化,如拥塞控制、流量调度以及端网协同等机制,以及硬件低时延(交换机、RDMA网卡)和直连拓扑等技术,降低端到端的静态时延(转发及传输)和动态时延(拥塞、排队和重传等)。•带宽需求:单端口带宽需支持400Gbps以上,向800G及1.6T演进,节点间总带宽需与GPU数量成正比,例如万卡集群需数百Tbps级网络容量。 确定性负载均衡 •全局路由优化:通过网络级负载均衡等技术,基于拓扑信息实现确定性路径分配,避免传统ECMP的哈希冲突问题。•动态负载感知:结合INT(带内网络遥测)技术实时监测链路状态,动态调整流量分布,支持基于流量的动态路由。•容错机制:采用多路径冗余设计,确保单链路故障时训练任务可无缝切换至备用路径。 高可扩展性与灵活性 •拓扑创新:从传统Spine-Leaf架构向Dragonfly、3DTorus等新型拓扑演进,提升网络带宽、降低时延并增强可扩展性。•光电融合交换:引入光交换技术,将波长作为调度单元,降低时延并提升带宽利用率,并支持训练任务的动态拓扑重构,简化网络的增量扩展。