您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:人工智能算力基础设施赋能研究报告(2025年) - 发现报告

人工智能算力基础设施赋能研究报告(2025年)

AI智能总结
查看更多
人工智能算力基础设施赋能研究报告(2025年)

人工智能算力基础设施赋能研究报告 (2025年) 中国信息通信研究院产业与规划研究所2025年11月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 在人工智能落地破局与赋能千行百业进程中,以智算中心为代表的人工智能算力基础设施,被赋予更重要的定位和使命,成为支撑人工智能技术及产业发展的重要基石。然而,目前人工智能算力基础设施利用负载情况差异较大,尤其是地方政府或国资平台主导投建的智算设施,赋能价值有待进一步提升。因此,需要厘清智算中心赋能的需求场景、需求场景与所需关键能力的匹配,以及推进赋能落地的生态模式,助力人工智能算力基础设施真正实现赋能价值。本报告聚焦智算中心赋能,围绕需求场景、关键能力、落地生态这三个关键环节,阐述最新发展趋势,致力于进一步释放智算中心的赋能效应,助力人工智能与实体经济深度融合。 需求场景方面,大模型预训练、微调、推理场景对计算需求不一,当前各方主体已针对性开展各类场景的支撑。推进基础预训练大模型的训练,需要具备E级(EFlops)计算能力的高端万卡集群中心支撑。推进小模型(百亿级及以下参数)的训练、微调,或推进模型的推理,依托百P级(PFlops)计算能力的中小型智算中心即可支撑。 关键能力方面,训练场景与微调/推理场景在底层支撑能力、创新服务能力、运营保障能力要求有较大区别。在算力市场高阶技术服务需求暴涨的当下,智算中心亟需针对性夯实关键能力,支撑数据处理服务、算力调度服务及推理应用服务等。 落地生态方面,智算中心赋能需要分场景聚合AI能力主体,推进智算中心赋能所需核心要素主体的协同。智算中心需求场景和关键 能力需要有落地生态的加持才能落地,而落地生态需要推进算力、数据、算法、场景、产业等要素间协同协作,助力AI大模型赋能行业场景落地。 当然,报告仍有诸多不足,恳请各界批评指正。 目录 一、人工智能算力基础设施演进态势.......................................................................1 (一)技术创新:三位一体智算设施升级.....................................................1(二)布局优化:全国智算设施协调发展.....................................................3(三)产业升级:智算全产业链协同发展.....................................................4二、人工智能算力基础设施赋能的重要走势...........................................................6(一)需求场景逐步明晰,促使智算资源优配.............................................7(二)关键能力逐步聚焦,提升智算服务水准.............................................7(三)落地生态逐步聚和,加速智算价值释放.............................................8三、人工智能算力基础设施需求场景.......................................................................8(一)大模型预训练场景.................................................................................9(二)大模型微调场景...................................................................................10(三)大模型推理场景...................................................................................11四、人工智能算力基础设施关键能力.....................................................................13(一)基础支撑能力.......................................................................................14(二)创新服务能力.......................................................................................17(三)运营保障能力.......................................................................................19五、人工智能算力基础设施落地生态.....................................................................21(一)智算与数据要素协同...........................................................................22(二)智算与模型算法协同...........................................................................23(三)智算与跨域智算协同...........................................................................24(四)智算与行业场景协同...........................................................................25(五)智算与区域产业协同...........................................................................26六、发展展望.............................................................................................................28(一)需求场景更加多元、复杂...................................................................28(二)关键能力更加集约、软性...................................................................29(三)落地生态更加聚合、协同...................................................................30 一、人工智能算力基础设施演进态势 人工智能算力基础设施,是基于人工智能专用算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。大模型加速技术迭代与工程创新步伐,对人工智能算力基础设施技术创新、布局优化、产业升级也提出了更高阶的要求。 (一)技术创新:三位一体智算设施升级 当前,我国人工智能算力基础设施正处于系统性升级与架构演进的关键时期,正加速向集约高效、低碳共生、高速泛在的融合形态纵深发展,全面步入以超大规模集群化、绿色低碳化与高速互联化为核心特征的新发展阶段。在顶层设计与政策引导协同驱动下,我国智算中心规模持续扩大、技术体系日益自主、能效水平不断提升、互联能力显著增强,逐步构建起支撑数字经济高质量发展和现代化产业体系建设的算力底座。 超大规模集群化实现突破。超大规模集群指由万或超十万颗高性能GPU/NPU/DPU/CPU等异构算力卡、HBM/DRAM/SSD等异构存储单元构成的异构计算/存储集群,通过高速互联网络实现近乎线性的算力扩展,以支撑千亿乃至万亿参数大模型的训练与复杂推理任务。超节点作为智算集群化发展的关键技术之一,正逐渐成为行业焦点。以华为昇腾384超节点为例,通过高速总线实现384卡高速总线互联,跨节点通信带宽提升15倍,并通过全局内存统一编址技术,将 分散在各节点的内存池虚拟为统一地址空间,支持跨节点直接内存访问,配置8节点存储超节点集群,具备超大带宽、超低时延、超强性能的三大优势。中兴通讯提出AI加速器高速互联开放架构,构建国产化GPU卡大规模高速互联的系列Nebula星云智算超节点,支持Scale-Up与Scale-Out双重扩展模式,高带宽域可扩展至2048卡,为AI训练及推理场景提供软硬协同、开放解耦、高效高稳的算力底座。 绿色低碳化发展成效显著。当前AI爆发式增长带来巨大的算力能耗挑战,人工智能算力基础设施的绿色低碳发展趋势正驱动商业模式创新。绿色低碳不仅是用户选购智算中心及算力服务的重要考量,也是企业服务方案的核心竞争力。目前业界广泛采用液冷、算电热碳一体化、模块化建设及智能化运维等先进技术,持续优化智算中心能效水平。中国移动长三角(苏州)云计算中心机房通过利用液冷技术,使散热能耗降低50%~60%,数据中心PUE值降低至1.25以下。目前主流冷板式液冷仍需风冷辅助散热,未来将通过优化冷板设计、推广单相浸没式或全覆盖冷板液冷,逐步减少风冷依赖,提升单机柜功率密度并简化数据中心架构。此外,在智算中心平台侧,可通过算力编排管理系统、碳排放监测与统计平台等,适应不断变化的应用需求和能效要求。 高速互联化加速探索。智算中心的发展不仅取决于单点算力性能,更依赖于跨节点、跨地域的高效互联,分布式训练和跨中心协作成为当前探索的技术热点领域。我国正通过构建“物理网络+虚拟网络”双层协同技术体系,加快推进算力基础设施的高质量互联化发展,提 升算力资源的整体效能。目前400G技术体系基本完善,我国运营商逐步启动干线场景规模部署,对于更高速率的传输技术,业界加快800G/1.6T技术标准研制,OIF和ITU等标准化组织正在开展相关项目研究工作,产业界也已经启动试点验证。此外,G.654.E光纤、空芯光纤等新型传输媒介加快应用步伐,为构建高性能智算网络基础设施提供有力支撑。 (二)布局优化:全国智算设施协调发展 政策引导推动智算中心高质量发展。我国高度重视智算中心建设,自2020年发改委将智能计算中心纳入新基建范畴以来,国家相关部门相继出台了《新型数据中心发展三年行动计划(2021-2023年)》、《算力基础设施高质量发展行动计划》等多份文件,提出统筹建设高性能智算中心,对于智算中心从鼓励建设转向深化布局,指引方向更加明确。2025年5月,国家数据局印发《数字中国建设2025年行动方案》,提出逐步实现各地区算力需求与国家枢纽节点算力资源高效供需匹配。2025年8月国务院印发《关于深入实施“人工智能+”行动的意见》,明确提出强化智能算力统筹,加快超大规模智算集群技术突破和工程落地,优化国家智算资源布局,完善全国一体化算力网,加强智能算力互联互通和供需匹配,创新智能算力基础设施运营模式,推动智能算力供给普惠易用、经济高效、绿色安全。 智算中心建设加快布局,总体规模进一步增长。近年来,我国持续加大对计算、存储和算力网络基础设施的投入,算力作为支撑人工智能发展的核心生产力,呈现出稳中有进的发展态势。据中国信通院