您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [云计算开源产业联盟]:云计算开源产业联盟:2025超大规模智算集群关键技术及工程落地研究报告 - 发现报告

云计算开源产业联盟:2025超大规模智算集群关键技术及工程落地研究报告

报告封面

云计算开源产业联盟 2025年12月 版权声明 本报告版权属于云计算开源产业联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:云计算开源产业联盟”。违反上述声明者,本院将追究其相关法律责任。 前言 编制目的与意义:当前人工智能领域的发展不断加速,超大规模智算集群作为支撑大模型研发、数学经济升级的算力基础,其发展水平直接关系到科技竞争力与战略发展。编制本报告,旨在通过系统性布局,保障重要科技任务落地,为基础大模型、航天仿真气候预测、科研等领域提供算力支撑。通过超大规模建设构建数字经济发展新优势,将算力优势转化为产业优势,支撑制造业、医疗、“国,转力。 本报告主要研究内容包括超大规模智算集群国际、国内发展背景、现状和意义。分析超大规模智算集群建设技术路线、建设标准与运营机制,研究建立算力供需匹配的动态平衡机制,规模化建设以及创新运营模式。同时,报告通过分析国内外技术迭代,推动硬件、框架、集群的端到端协同,形成服务器、集群、模型、应用的完整生态,让超大规模集群成为AI产业创新基础,带动相关产业发展。 编制依据:主要编制依据包括:《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》、《国务院关于深入实施“人工智能+”行动的意见》等国家总体规划。《算力 互联互通行动计划》《算力基础设施高质量发展行动计划》等算力专项政策,《超智融合集群能力要求》《高性能计算(HPC)云平台能力要求》等行业标准与规范,以及各地产业发展规划、落地经验和企业发展态势。 参编单位:中国信息通信研究院、中国电信集团有限公司、杭州阿里云飞天信息技术有限公司、之江实验室、联通数字科技有限公司、中兴通讯股份有限公司、百度在线网络技术(北京)有限公司、北京探微芯联科技有限公司、京东科技信息技术有限公司、恒为科技(上海)股份有限公司、上海芯问科技有限公司。 参编专家:陈屹力、郑立、刘天赐、应启明、崔娜妮、涂传滨、敖波、杨非、陈升、孙柠、傅科杰、唐哲、黄强、王洪斌、李秦洋、严昱瑾、史磊、缪懋、沈天珺、刘学、孙玉增、范震、卿华、贺皓韩冬、周欣悦、张连富、陈纲。 目录 、研究背景与意义 1.1超大规模智算集群的需求导「1.2 产业发展需求1.3研究报告核心价值1.4 研究范围与边界 二、超大规模智算集群产业现状、趋势与挑战4 2.1 国际发展现状和趋势2.2 国内发展现状和趋势2.3国内发展面临的核心挑战 三、超大规模智算集群总体架构与核心技术 3.1 核心设计原则3.2 总体架构113.3.硬件架构技术133.4 全栈工程化技术19 四、超大规模智算集群工程化实施路径.25 4.1规模化部署成本控制254.2 软硬件兼容适配.264.3 模型及智能体服务274.4超大规模智算集群运营 五、超大规模智算集群发展趋势与发展建议28 5.1 技术发展趋势285.2产业发展趋势325.3 发展建议33 六 附录36 案例:某智算集群运营案例 一、研究背景与意义 1.1 超大规模智算集群的需求导向 超大规模智算集群是支撑人工智能(AI)大模型发展和产业创新的核心基础设施,智能算力已超越基础算力成为增长主导引擎。国际头部科技企业正积极部署十万卡及以上的超大规模集群。国内方面,智算集群建设在政策驱动下快速发展,市场规模持续扩大,力求实现算力产业的创新引领。 超大规模集群是国内应对硬件设备受限、单卡算力不足问题的关键,通过架构研发与全链条整合,形成完善 AI产业。同时,超大规模智算集群作为顶层项目具有极强的“示范效应”,拉动包括硬件制造、组件制造、网络基础设施、能源生产和电源管理等产业链发展。是对算力是核心生产力战略的实践,为在大模型研发上构建显著的技术优势,积极布局下一代通用人工智能研发的算力制高点。 1.2 产业发展需求 大模型与生成式AI的行业落地正推动算力需求从互联网领域向传统行业渗透,工业、车联网等领域已形成明确算力需求场景,且需求规模随人工智能的应用深化持续扩张,大规模、高端算力的需求迫切。软件及信息技术服务业方面,国内大模型创新研发主体已逐步收敛,从事基础大模型研发的厂商主要包括互联网巨头,以及大模型初创企业两类主体。 工业方面,算力需求主要来自于工业AI、数字李生、工业大数据等前沿场景,自前我国5G工广的智能化、信息化水平在各自行业处于领先水平,部署的算力规模远高于同行业其他企业。未来工业大模型将深度参与工业IT任务编排和OT生产制造,工厂需要根据生产线数量和智能生产环节数量部署大量算力。 智慧交通方面,智慧交通领域大模型建设和应用加速兴起。2025年3月,山东、陕西、江西等六省交通集团联合发布的经纬交通大模型,覆盖‘建、管、养、运、服”全链条AI场景。此外,阿里、科大讯飞、华为、海信等互联网企业相继发布交通大模型,赋能城市、高速交通智能化。头部车企与云服务厂家加速合建智算中心。 1.3研究报告核心价值 本报告立足算力建设格局与产业发展痛点,为超大规模智算集群建设路径和产业发展提供支撑。业联 一是战略发展价值,本报告聚焦国际国内发展现状,系统梳理智算集群从方卡到十方卡级的突破路径,为保障算力领域先进性提供技术路线图,助力在人工智能发展中构建高性能算力底座。 二是技术突破价值,报告针对智算集群互联效率、网络架构、存储适配等核心瓶颈,提出“算存网协同优化”“全栈工程化适配”等系统性解决方案,明确高密度节点部署、分布式协同训练、智能调度等关键技术的落地标准,为大规模集群效能提升提供实操指引。 三是产业赋能价值,报告紧扣大模型迭代与行业智能化转型需求,打通“技术-工程-应用”全链条,通过梳理集群典型实践案例,提炼可复制的集群建设与运营模式,支撑工业、交通、医疗等领域的算力需求落地,推动算力优势转化为产业竞争力。 四是决策支撑价值,基于国际经验与国内现状,提出核心技术研发、行业标准统一、算力布局优化等针对性建议,既为完善“东数西算”“数字中国”等战略配套提供决策参考,也为地方政府制定差异化激励政策、避免重复建设提供依据。 1.4 研究范围与边界 本报告贯穿超大规模智算集群全链条,涵盖基础设施(算存网硬件)、智算平台(调度与训练框架)、应用使能(模型工具链)、运营运维各大环节,涉及硬件设备广商、集群建设方、云服务商、行业用户等多元主体。报告聚焦硬件架构、全栈工程化技术、工程落地路径三大核心技术方向,重点解析万卡至十万卡级集群的关键技术突破点。报告纳入主要经济体(美欧日韩)的发展现状与动态,系统梳理西部绿电)的布局优化方案。 报告重点聚焦集群系统级协同技术与工程化落地方案,以规模化、通用性场景为核心。聚焦地方、企业、科研机构等核心主体的协同发展,重点阐述技术演进与落地路径并提供建议。 二、超大规模智算集群产业现状、趋势与挑战 2.1 国际发展现状和趋势 在政策规划持续深化、基建投入精准发力及企业研发迭代加速的多重推动下,美欧日韩正以“规模突破+技术融合”为核心,结合自身优势形成差异化发展路径,算力竞争格局持续升级 美国方面通过国家战略与资本协同,既有科技巨头的规模化突破也有政府层面的精准布局,加速推进超大规模智算集群建设,目前已定,构建软硬一体、生态闭环的智算霸权体系,使AI发展呈现“强者恒强”的马太效应。英伟达主导的集群规模持续刷新纪录:H100集群已实现十万卡级常态化应用,马斯克旗下xAI团队凭借约20万片H100完成Grok4大模型的训练与发布,Meta部署的超10万卡H100集群则为Llama4的迭代提供稳定算力支撑,单集群即可高效完成万亿参数模型的预训练任务。“星际之门”计划推进顺利,美国德克萨斯州“星际之门一号站”分阶段部署的6.4万块GB200,总算力达576EFLOPS,首批1.6万块已于2025年夏季正式投入使用,成为算力密度最高的集群之一。AWS则持续深耕云原生赛道,基于 Trainium构建的集群通过优化分布式训练框架,实现从大模型预训练到推理的全流程弹性算力供给,适配企业多样化需求。 欧盟以EuroHPC“AI工厂”计划为核心的算力整合战略持续推进,该计划已追加500亿欧元公共投资,预计撬动2000亿欧元社会 资本涌入智算领域,重点聚焦AI优化超算建设与行业融合应用。目前欧盟正通过统一技术标准与智能调度系统,打通德国、法国、意大利等成员国的AI工广与超算中心,形成跨区域分布式协同算力网络为气候变化模拟、个性化药物研发、工业大模型训练等算力密集型场景提供支撑。在绿色发展方面,欧盟已明确要求所有新建智算集群可再生能源供电占比不低于80%,并通过液冷技术升级与智能能源管理系统,将核心集群的PUE值控制在1.15以下,部分北欧节点借助水电资源实现“零碳算力”运营,推动算力扩张与可持续发展的协同。当前欧盟正联合本土科技企业开发适配区域需求的智算软件栈,减少对美国技术的依赖,同时计划在2026年完成5个跨成员国算力枢纽的互联互通,进一步提升区域算力调度效率。 日韩依托半导体产业根基,将智算集群建设与核心器件创新深度绑定,强化“芯片-集群-应用”的产业闭环。韩国延续存储技术优势,三星HBM3E产品已实现大规模量产,其1.2TB/s的高带宽与低延迟特性,使韩国本土智算集群的数据吞吐效率提升,有效适配大模型训练中的高频数据交互需求。2025年四季度,三星与现代汽车合作搭建的汽车AI 专用集群正式启用,基于HBM3E 与 AI芯片的组合,为突围”双线发力:2025年11月,日本政府宣布追加2525亿日元(约16亿美元)额外预算,专项支持AI与半导体领域发展,其中超60%资金将用于智算集群基础设施与人才培养。技术布局上,日本理研计于2026年春投入两台基于英伟达Blackwell架构的新型超级计算机, 总计搭载 2140 块 GPU,分别聚焦 AI 驱动的科学研究与量子-经典混合计算测试。这两台集群采用Quantum-X800 InfiniBand 实现高速互联,并接入CUDA-X软件栈优化性能,不仅将成为下一代超算FugakuNEXT 的技术试验平台,还将通过 SQC接口连接日本国内量子资源,构建分布式混合计算网络,强化在精密制造、量子算法研发等领域的算力优势。 2.2国内发展现状和趋势 在算力布局中,超大规模智算集群形成“政策锚定方向、技术夯实基础、产业驱动升级”的发展格局,依托绿电资源烹赋与算力生态,“,,路径。 政策层面,已建立覆盖顶层设计到地方落地的完整政策支撑体系,为智算集群发展划定清晰路线图。智算集群建设被纳入“数字中国”战略核心框架,2022年启动的“东数西算”工程将超大规模智算集群作为西部算力枢纽的核心载体,在内蒙古、宁夏、贵州等8个国家枢纽节点划定集聚区,实现东部算力需求与西部资源的精准匹配。2024年国家四部门联合发布《数据中心绿色低碳发展专项行动计划》%8国,指标,强化算电协同导向。 地方层面,AI产业密集区已率先出台专项激励政策:《上海市 关于促进智算云产业创新发展的实施意见(2025-2027年)》聚焦智算云融合,《北京市算力基础设施建设实施方案(2024一2027年)》明确算力规模与效能目标,形成“国家定框架、地方出细则”的协同推进机制,为超大规模集群落地提供制度保障。 目前,智算集群建设已进入规模化阶段,但“规模增速快、效能待提升”的特征显著。截至2025年,已建成多个万卡级智算集群,推理端算力占比持续上升,国家数据局数据显示我国日均token 消耗突破30万亿,多家国内芯片已能满足推理性能要求,数个万卡集群均处于满负载运行状态,集群利用率稳步提升。 国产大模型的参数跃迁成为集群建设的核心引擎。随着通义千问、DeepSeek、豆包等模型从千亿向万亿参数突破,算力需求呈指数级增长,倒逼集群在算力密度与通信效率上持续升级,行业正形成“大模型需求→集群技术升级→更大规模模型研发"的正向循环。 未来发展将聚焦三大方向:一是规模跃升,头部企业加速向十万卡级集群突破,缩小与国际领先水平