AI智能总结
2025年9月 目录 前言01 03数据中心网络发展趋势与挑战02 数据中心网络产业发展趋势2.12.2通算数据中心网络发展趋势与挑战2.3智算数据中心网络发展趋势与挑战050603 0903数据中心网络代际演进 1104AI Fabric 2.0关键技术 AI网元4.111 4.1.11112绿色超宽4.1.2高速光互联4.1.3内生安全154.1.4智能遥测164.1.5AI交换机17 4.218AI联接 4.2.118新型网络架构 184.2.1.1多平面组网技术4.2.1.2对等组网技术20 4.2.2网络级负载均衡技术23 4.2.2.1流级负载均衡技术4.2.2.2逐包负载均衡技术2423 4.2.3拥塞控制技术26 4.2.3.1端网协同拥塞控制技术4.2.3.2FlexBuffer拥塞控制技术28264.2.3.3拉远训练精准流控技术294.2.3.4AI ECN 2.0技术30 4.2.4在网计算技术31 4.2.5在网存储技术31 4.2.6高稳韧性技术33 4.2.6.1故障恢复技术4.2.6.2闪启技术36334.2.6.3光链路检测技术374.2.6.3网络互联冗余39 4.3AI大脑41 4.3.1仿真验证/孪生仿真414.3.2自动化Agent424.3.3故障Agent424.3.4网维Copilot43 05总结和展望 45 编制说明 本研究报告在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家、参编单位和参编人员: 顾问专家(排名不分先后): 中国信息通信研究院云计算与大数据研究所所长何宝宏 华为数据通信产品线数据中心网络领域总裁王武伟 参编单位(排名不分先后): 华为技术有限公司、中国信息通信研究院(云大所) 参编人员(排名不分先后): 郭亮、王少鹏、王建兵、钱骁、李建高、张白、李军、韩涛、吴圣伟、陈太尚、魏智杰、耿煜、屈飞园、赵笑可、李久勇、李杰、汪若虚、管紫轩、侯延祥、温华锋、陈龙、焦雪松、许建、吴洋、胡秀丽、赵科学、张力、李晨飞 产业数字化的快速发展推动了数据中心的演进,数据中心网络的发展经历了三个主要阶段:虚拟化阶段、云化应用阶段和算力服务化阶段。 在虚拟化阶段和云化应用阶段,数据中心为办公和生产系统提供虚拟化和云化基础设施,数据中心网络采用传统以太网技术用于支撑数据的集中管理以及计算和存储资源的池化应用。发展到算力服务化阶段,随着高性能存储、超算中心高性能互联和AI算网的引入,数据中心网络需要提供更高带宽、更低时延以及更高可靠性。然而,传统以太网技术无法满足要求,导致数据中心高性能存储选择FC专网承载,超算中心高性能互联则通过IB专网承载,而AI算网则通过增强的以太网技术承载。这种三种网络技术并存大大增加了数据中心网络的管理运维复杂度和成本。 与此同时,计算技术的广泛应用和数据中心对以太网交换需求的显著增长,推动了以太技术的快速发展。随着400GE以太技术的商用和800GE以太标准的发布,以太网技术不仅在带宽上超越了IB网络,无损以太网技术也逐渐成熟,为高性能网络向无损以太演进奠定了基础。 超融合以太以实现数据中心网络融合为目标,将通用计算、存储、高性能计算统一承载在0丢包以太网技术栈上,实现从三张网到一张网的融合部署,统一网络架构,推动无损网络向超融合网络架构演进,实现算网融合。 在当前数字化浪潮席卷全球、AI应用呈指数级快速增长的时代背景下,数据中心网络作为算力承载与数据流通的关键枢纽,其性能优劣直接决定了企业数字化转型与智能化创新的成败。基于对这一行业痛点的深刻洞察,以及推动AI产业生态良性发展的使命感,我们精心筹备并推出这份《智能算网(AIFabric 2.0)研究报告》(下面简称AIFabric2.0)。 相对于传统数据中心网络,AIFabric2.0不仅是技术上的迭代升级,更是从理念到架构、从技术到应用的全面革新,是对重新定义了AI时代数据中心网络的价值范式。 数据中心网络发展趋势与挑战 数据中心网络产业发展趋势2.1 随着数字经济的加速发展,人工智能、大数据、云计算、区块链等新一代信息技术已成为社会生产力的关键支撑,尤其是以GPT-4、Llama和DeepSeek为代表的大语言模型(LargeLanguageModels,LLMs)在人工智能领域取得突破性进展,引发了对算力资源前所未有的需求。 在数字经济加速发展的背景下,算力已成为新型基础设施的重要支撑,是推动经济社会高质量发展的核心驱动力。作为数字经济的关键组成和引领性领域,算力正加快成为培育新质生产力、赋能产业升级的重要引擎。全球范围内,各国围绕算力展开了激烈竞争,纷纷通过政策强化算力产业的引导,以抢占数字经济发展的制高点。 例如,美国、欧盟等均已将算力网络纳入国家数字基础设施建设规划。2019年11月,美国发布《国家战略性计算计划》,提出开发、拓展并提升国家的计算基础设施和生态系统。2020年9月,欧盟对“欧洲高性能计算共同计划”进行了升级,重点发展下一代超级计算,强化欧洲数字主权。2023年,欧盟在《2030年数字十年政策方案》也提出"加强欧盟范围内传输、计算和数据基础设施建设”,以实现欧盟2030年数字化转型的共同目标。此外,沙特制定了《沙特愿景2030》战略,旨在发展高性能计算和人工智能技术,提高在全球竞争力。 我国也在持续强化算力产业政策引导,统筹通用算力、智能算力和超级算力,为网络强国和数字中国建设筑牢数字基座。2021年3月,“十四五”规划首次提出“全国一体化大数据中心体系”,建设E级与10E级超算中心;同年5月,国家发改委等四部委联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络枢纽节点,启动实施“东数西算”工程。2021年7月,工业和信息化部发布《新型数据中心发展三年行动计划(2021-2023)》,提出构建以新型数据中心为核心的智能算力生态体系,构建具备高技术、高算力、高能效、高安全特征的新型算力基础设施。2023年10月六部委印发《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180号),提出2025年算力规模超过300EFLOPS(每秒浮点运算次数),智能算力占比35%的目标, 并阐述了算力内网络高性能传输调度要求,以及无损网络技术应用要求。数据中心网络连接算力,其性能直接决定了整个数据中心的实际算力水平。以大模型训练为例,需要同时协调数千张甚至数万张算力卡资源,数据吞吐量成为AI计算的关键瓶颈,需要高效的数据流水线支持,对网络的带宽、时延和可靠性都提出了极高要求。因此,要提升数据中心算力服务能力,就必须进一步提升数据中心网络性能。根据《中国综合算力指数(2024年)》报告,计算、存储和网络是算力最重要的组成部分,在数字经济发展新时期,需要更加关注构建集群算力、存力和运力于一体的数据中心。 2.2通算数据中心网络发展趋势与挑战 根据中国人民银行发布的金融行业标准《金融数据中心容灾建设指引》(JR/T0264—2024),通用计算网络容灾正在从“备份可用”向“智能韧性”升级。这一指引不仅提升了对灾难恢复能力,更是金融等行业在通用计算核心业务与数据中心发展理念上的重大转折。在央行《指引》的推动下,金融行业的容灾体系正在加速变革,而政务、泛互联网等领域的通算核心业务也在共同推动数据中心网络进入颠覆性重构期。 未来十年,数据中心的核心将发生根本性变化,从“异地容灾预防灾难”向“极端容灾预防战争”演进。以国内某大型银行为例,其业务架构从“业务主备、数据灾备”向“业务多活、数据多活”持续演进,这将推动通算数据中心服务器数量增长10倍,单个数据中心向“十万级”集约化建设迈进。预计在未来10年内,国内大行将率先在内蒙古、西安、成渝等地分阶段建设大型数据中心,最终建成50万甚至百万服务器级别的“多地多中心”数据中心架构,这一趋势将给数据中心的网络架构和运维带来新的变化和挑战。 1)核心演变:从“孤岛保障”走向全局智慧 传统数据中心网络是维系单一计算资源池运作的静态管道,其主要功能是保障计算与存储之间的基本连接与稳定运行。然而,伴随业务多活、数据多活(双活/多活)架构的深入应用,网络角色正重构为连接全国乃至全球分布式计算资源的“神经中枢”。这一中枢需实时掌握所有业务组件的分布状态,并依据负载、灾害风险与延迟感知自主调整流量路径。它不再仅仅是通用计算资源的连接者,而是智能调度各资源池承载能力的核心大脑,确保客户各类核心业务在任意位置发生,都能由最优计算节点响应处理。这就要求异地数据中心间具备全局流量调度能力,可根据链路延迟变化动态切换支付结算类关键业务路径,实现用户“零感知”切换。 2)超大规模与智能韧性协同演进挑战加剧 伴随通用计算服务器迈向50万乃至百万级规模,单数据中心网络的物理规模与逻辑复杂性激增。传统依赖人工策略管理的模式已无法满足需求。带宽对等化、毫秒级切换等硬性要求,迫使网络架构向深度智能化演进: 意图驱动网络(IDN)与AI融合:AI的应用将网络运维从故障后的辅助诊断扩展到运行风险预测和优化。运维系统将基于对业务意图的理解(如“支付交易必须在50毫秒内返回结果”)和实时网络状态结合,自主计算最优路径,并自动执行调整,无需人工干预。同时,借助AI技术,在网络变更或故障处理时,能够实现智能化处置,真正迈向“无人值守”数据中心。 性能极限与新协议普及:多活架构下,数据中心间海量数据同步是关键性能瓶颈。低延迟、高带宽的RDMA(如RoCEv2)将普遍应用于金融核心交易与关键数据库同步环境,对无损以太网能力提出严峻挑战。此外,传统Spine-Leaf的CLOS架构是否适用超大规模的数据中心,如何应对多POD间的大规模流量灵活调度,也将面临新的挑战。 “战争级”韧性催生容灾与加密升级:为应对地质灾害及冲突破坏,如何支撑数据中心网络“中枢”在极端环境下的通信能力成为关键瓶颈。网络需要基于智能故障感知恢复,助力网络常稳业务永续。同时,为保障跨楼宇、跨DC此类高速链路互联场景的传输安全,通信安全等相关技术也将加速在高韧性DC架构中落地。 未来十年数据中心网络将彻底超越传统连接的定位,真正成为驱动金融、政府等业务韧性、智能与效能变革的根基性力量。其成功演进绝非单纯的技术升级,更将成为行业在数字经济时代制胜的关键能力基石。谁能率先完成网络从“业务保障通道”向“智能韧性运营枢纽”的跃迁,谁就将在未来激烈的数字化和智能化竞争中占据先机。 2.3智算数据中心网络发展趋势与挑战 AI产业正迎来前所未有的快速发展期,呈现出几大显著趋势变化。 1)大模型规模指数级增长,头部OTT大模型持续摸高,大模型训练带动网络发展模型性能竞赛白热化:2025年上半年,OpenAI的GPT-4.5、Google的Gemini 2.5Pro、Anthropic的Claude 4等模型在复杂推断能力上持续突破。例如,Gemini 2.5Pro在数学推理(2025高考数学卷得分140分)和多模态理解(支持100万令牌上下文窗口)上达到新高度,而Claude4Opus通过混合推断模式实现“快速响应”与“深度反思”的动态平衡。 模型摸高驱动集群规模走向10万卡,代际快速演进:北美头部互联网客户在智算领域的投资保持60%增速,例如Meta在2025年持续扩大英伟达H100GPU集群,规模超35万卡,网络代际向800GE快速演进;“星际之门”总投资超1150亿美元,2025年底建设超 30万卡GB200集群。国内客户也在积极跟进,例如字节2025年在智算领域投资1600亿元人民币,持续AGI(通用人工智能)研发;阿里发布Qwen2.5-Max,未来3年投资3800亿投入AI和云基础设施。 模型尺寸从最初的数十亿参数发展到如今的万亿参数级别,带动算力规模呈现爆炸式增长,相应的网络规模和带宽需求也随之急剧增长。这直接推动了网络速率从Gb级别迈向400GE/800