您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国智能计算产业联盟&益企研究院]:2025中国算力发展之AI计算开放架构研究报告 - 发现报告

2025中国算力发展之AI计算开放架构研究报告

AI智能总结
查看更多
2025中国算力发展之AI计算开放架构研究报告

单志广张云泉何宝宏张广彬I著 编写委员会2025 中国算力发展之 AI 计算开放架构研究报告 顾问:钱德沛陈润生陈国良郑纬民袁国兴主编:单志广张云泉何宝宏张广彬执行主编:安静洪钊峰王海峰 编委:沈文海陈学斌方娟贾海鹏赖能和李婧颖袁良张延强王丹丹陈栩涂菲菲刘殷戴彧宋心荣舍日古楞徐凌验祁金华汤国伟 特别鸣谢:清华大学益企研究院 国家信息中心中国科学院计算技术研究所中国信息通信研究院云计算与大数据研究所国家高性能计算机工程技术研究中心清华大学国家气象中心 目录CONTENTS 一、 AI 计算开放架构研究背景01 1.1 AI 计算需求持续增长02 1)大模型持续发展,AI 算力需求不断攀升022)AI 应用泛在化,万卡集群建设加速推进033)大模型持续创新与应用深入,驱动 AI 计算模式升级034)万卡、十万卡超大规模集群不断涌现04 1.2 国内异构算力发展趋势04 1)算力多元异构融合发展042)异构算力系统的发展现状与趋势053)智算中心的异构算力发展趋势06 1.3 中国人工智能发展面临算力瓶颈06 1)AI 芯片单卡性能相比国际先进水平存在代差072)发展集群算力是突破算力瓶颈的关键举措073)智算配套生态系统不完善,削弱整体算力效能08 二、 AI 计算开放架构:概念与意义09 2.1 计算架构演变史:合久必分,分久必合10 1)大型机时代102)集群时代103)智能时代10 2.2 集群组网方式:Scale Up 与 Scale Out11 1)开放架构协议发展112)Scale Up 超节点与 Scale Out 分布式扩展12 2.3 AI 计算开放架构的概念与定义14 2.4 国内外 AI 计算架构发展一览16 1)国外 AI 计算架构发展一览162)国内 AI 计算架构发展一览17 2.5 AI 计算开放架构产品、方案18 1)国内外相关机构现状及进展182)国内外相关开放架构产品发展情况21 2.6 AI 计算开放架构的意义与价值25 1)有助于推动跨层协作,加速 AI 技术迭代创新252)有助于破解算力瓶颈,弥补性能和供给缺口253)有助于降低使用成本,推进全行业算力普惠264)有助于强化产业协同,构建共建共赢的生态26 三、 开放架构面临的挑战与应对27 3.1 面临的困难与挑战28 3.2 AI 计算开放架构的目标30 3.3 业界应对举措32 四、 智算中心 AI 计算开放架构部署案例33 4.1 曙光 AI 超集群系统案例34 4.2 沐曦 AI 计算集群部署案例36 五、 展望:智能时代的中国智算产业生态37 5.1 智算产业生态未来趋势38 1)算力规模不断扩大,呈多元化创新趋势382) 芯片国产替代加速,国产 GPU 百花齐放383) 布局端边云协同,算力部署进一步优化39 5.2 AI 计算开放架构发展倡议39 1)加快标准研制,构建产业协同生态392)攻关技术难题,突破算力效率瓶颈403)优化运营管理,提升智算服务质量40 2025 中国算力发展之 AI 计算开放架构研究报告2025 中国算力发展之AI 计算开放架构研究报告 AI 计算开放架构研究背景 1.1 AI 计算需求持续增长 1)大模型持续发展,AI 算力需求不断攀升 近年来,以 ChatGPT、Sora、DeepSeek 等为代表的预训练大模型持续取得突破,模型规模进一步扩大,推动人工智能从感知向认知、从分析判断式向生成式、从专用向通用转变,进入快速发展的新阶段,技术迭代叠加 AI 应用规模落地,带动 AI 计算爆发式增长。 根据 Scaling Law(规模定律),模型性能与参数量、训练数据量和计算资源之间存在幂律关系。 2020 年,GPT-3 的发布标志着大模型时代的开启。从 GPT-1 到 GPT-3,模型在各项任务表现提升的同时,参数量也增长了 1500 倍,据 OpenAI 公布,GPT-3 最大的一个模型拥有的参数量是 1750 亿。2023 年,随着 GPT-4 模型的发布,其在逻辑推理和文本理解上展示出了强大能力,GPT-4 模型生产的内容已接近人类创作水平,而其训练的参数量也相应增长至 1.8 万亿,需要在 2.5 万张 A100 上训练 90-100 天。GPT-5 模型参数规模和训练数据量官方尚未披露,但根据各方推测,参数可能达到 3-5万亿甚至更高水平,训练 token 数量估计在 13-30 万亿之间。GPT 五代模型的演进在其参数规模上呈现出明显的指数级增长。2025 年初,DeepSeek 大模型的发布,标志着国内大模型技术的长足进步,达到了世界领先水平,DeepSeek 大模型的快速推广应用,进一步激发了各行业领域对 AI 计算的需求。 2)AI 应用泛在化,万卡集群建设加速推进 智 算 需 求 迅 猛 增 长, 万 卡 集 群 建 设 加 速 推 进。 随 着 AIGC 技 术 发 展, 以DeepSeek 为代表的开源大模型正逐渐渗透到诸多行业,引发新一代人工智能技术发展新浪潮,带动了一批新兴业务的快速发展,如 MOE 基础模型预训练、强化学习训练、高通量集群推理、智能体、科学智能(AI for Science)等,这些新兴业务往往需要高性能计算能力和大规模数据处理能力,以应对复杂的算法和模型,处理海量数据,支撑各类应用和业务创新。 同时,多模态融合技术的兴起,将文本、图像、音频等多种数据模态进行融合处理,Sora、GPT-4o、Gemini 等多模态大模型的海量数据、高清晰度的多轮去噪也将带来算力百倍以上的增长。以文生视频大模型 Sora 为例,Sora 生成 60 秒视频对比GPT-3 生成 3000 字文本,对应推理计算负荷增加超 600 倍。根据测算,与语言大模型(GPT-3)相比,Sora 训练阶段的算力需求达 170 多倍;推理阶段,完成一项常规任务,算力需求是大语言模型 600 多倍。 《2025 人工智能指数报告》显示,标准人工智能训练模型的计算需求约每 5 个月翻一番,大语言模型训练数据集规模约每 8 个月翻一番。随着模型参数和训练集群规模越来越大,训练也从单机单卡转变成多机多卡,甚至万卡集群的训练,以支持千亿级甚至万亿级参数规模的大模型训练,从而大幅压缩大模型训练时间,以实现模型能力的快速迭代。 3)大模型持续创新与应用深入,驱动 AI 计算模式升级 大模型推理成为落地应用的关键环节,通过硬件、软件一体化集成,结合分布式并行推理等技术能有效提升推理效率,出现一体机、推理集群等新的产品服务形式。 大模型技术能力提升进一步推动了大模型的研发与落地应用浪潮。大模型一体机作为“软硬协同、开箱即用”的智能化基础设施,正成为推动 AI 普惠化、行业场景化落地的核心载体。 同时,基础大模型 ( 千亿级以上参数 ) 预训练及高通量推理应用需要大规模智算集群支撑。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层智算基础设施的要求进一步升级,万卡集群成为这一轮大模型基建军备竞赛的标配,万卡集群有助于压缩大模型训练时间,实现模型能力的快速迭代。万卡集群是指由一万张 及以上的加速卡 ( 如 GPU、NPU、TPU 或其他专用 AI 加速芯片 ) 组成的高性能计算系统,用以训练基础大模型。 4)万卡、十万卡超大规模集群不断涌现 国外 Google、Meta、Microsoft 等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。如 Google 推出超级计算机 A3 VirtualMachines, 拥 有 26000 块 Nvidia H100 GPU, 同 时 基 于 自 研 芯 片 搭 建 TPUv5p8960 卡集群。Meta 在 2022 年推出了一个拥有 16,000 块 Nvidia A100 的 A| 研究超级集群 Al Research Super Cluster,2024 年初又公布两个 24576 块 Nvidia H100 集群,用于支持下一代生成式 AI 模型的训练。科技巨头们通过成千上万台服务器组成的集群算力优势,不断优化服务架构,提升用户体验,加速新技术的市场转化与应用。 国内互联网、大模型、运营商等企业作为 AI 技术创新的先锋,通过建设超万卡集群来加速其在云计算、大数据分析和大模型研发等领域的突破。字节跳动、阿里巴巴、百度、中国移动、中国电信、商汤科技、智谱 AI 等企业积极推进大规模智算集群的建设。其中,字节跳动搭建了一个 12288 卡 Ampere 架构训练集群,研发 MegaScale 生产系统用于训练大语言模型。中科曙光为多个国家级超算中心建设万卡集群,并接入国家超算互联网(SCNet),支撑大模型推理、智能体开发、AI for Science 科学大模型研发训练等场景。 通过集群的强大计算力,国内头部互联网等企业不仅加速了自身业务的数字化转型,也为国内科技产业的发展贡献了创新动力。大型 AI 研发企业出于对大规模模型训练和复杂算法计算的迫切需求,正积极投建超万卡集群以满足其大模型的计算需求。 1.2 国内异构算力发展趋势 1)算力多元异构融合发展 全球算力呈现出多元异构发展、智算加速扩张的总体态势。基于 2023 年全球算力规模的测算结果,通用算力规模占比 60.55%,广泛应用于企业 ERP 系统、政务数据处理、互联网基础服务等标准化场景;智能算力规模占比 36.81%,其规模扩张主要由 AI 技术突破驱动,广泛应用于大模型训练;超算算力规模占比 2.64%,主要服务于气候模拟、新药研发、国防军工等重大科研任务。 CPU、GPU、FPGA、ASIC 等不同类型的处理器在执行模型训练、推理等工作任务时优势各异,通过科学组合可以为不同计算任务匹配最合适的计算资源,从而大幅提升计算效率和性能。异构算力融合成为提升算力效能的最优选择。 我国算力结构的多元化与全球趋势一致,在政策引导与技术创新的双重作用下,通用算力、智能算力和超级算力协同发展的供给体系 [ 《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180 号)] 格局进一步强化。其中,智能算力规模在大模型和生成式人工智能的迅猛发展下快速提升。《2025 算力发展报告》显示,截至2025 年 6 月底,我国在用算力中心机架总规模达 1085 万标准机架,智能算力规模达788EFlops(FP16)。 据 IDC 测算,2023 至 2028 年我国智能算力规模的五年年复合增长率可达到46.2%[ 国际数据公司 IDC、浪潮信息《2025 年中国人工智能计算力发展评估报告》]。 2)异构算力系统的特征与优势 近年来,AI 大模型、智能驾驶等算力应用场景呈现倍增发展,普遍具有高并行、低延迟的双重计算需求,传统的同构计算架构已无法满足日益复杂的计算需求。 CPU、GPU、FPGA、ASIC 等不同类型的处理器在执行模型训练、推理等工作任务时优势各异,通过科学组合可以为不同计算任务匹配最合适的计算资源,从而大幅提升计算效率和性能。异构算力融合成为提升算力效能的最优选择。 一方面,异构算力可以打破传统的单一架构算力形态,更好地满足不同应用场景下的算力使用需求;另一方面,异构计算模式通过协同调度不同厂商、代际、架构的芯片资源,灵活调度计算任务,实现能力开放和统一管理,能够大幅度优化数据处理流程,提升模型训练效率和资源利用率,有更多企业和科研机构推出具备商用价值的异构算力应用方案,逐步推动异构算力从理论走向落地,成为算力产业高质量发展的重要动力。 海光 DCU 系列、华为昇腾系列、寒武纪思元系列、壁仞科技 BR100 系列专为Transformer 等 AI 优化打造 GPU、ASIC 等架构芯片,满足云端大模型训练和推理需求;高通骁龙系列、瑞芯微 RK3588 为支持多模态感知和端侧 AI 推理,构建 F