行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

云计算开源产业联盟：2025超大规模智算集群关键技术及工程落地研究报告

信息技术 2026-03-05 云计算开源产业联盟赵小强

一、研究背景与意义

需求导向：超大规模智算集群是支撑人工智能大模型发展和产业创新的核心基础设施，智能算力已成为增长主导引擎。国际头部科技企业正积极部署十万卡及以上的超大规模集群。国内智算集群建设在政策驱动下快速发展，市场规模持续扩大，力求实现算力产业的创新引领。
产业发展需求：大模型与生成式AI的行业落地推动算力需求从互联网领域向传统行业渗透，工业、车联网等领域已形成明确算力需求场景，且需求规模随人工智能的应用深化持续扩张。国内大模型创新研发主体已逐步收敛，工业方面算力需求主要来自于工业AI、数字孪生、工业大数据等前沿场景。
核心价值：本报告为超大规模智算集群建设路径和产业发展提供支撑，具有战略发展价值、技术突破价值、产业赋能价值和决策支撑价值。
研究范围：贯穿超大规模智算集群全链条，涵盖基础设施、智算平台、应用使能、运营运维等环节，涉及硬件设备商、集群建设方、云服务商、行业用户等多元主体。

二、超大规模智算集群产业现状、趋势与挑战

国际发展现状和趋势：美欧日韩正以“规模突破+技术融合”为核心，结合自身优势形成差异化发展路径，算力竞争格局持续升级。美国通过国家战略与资本协同，加速推进超大规模智算集群建设，构建软硬一体、生态闭环的智算霸权体系。欧盟以EuroHPC“AI工厂”计划为核心的算力整合战略持续推进，重点聚焦AI优化超算建设与行业融合应用。日韩依托半导体产业根基，将智算集群建设与核心器件创新深度绑定，强化“芯片-集群-应用”的产业闭环。
国内发展现状和趋势：国内智算集群建设已进入规模化阶段，但“规模增速快、效能待提升”的特征显著。截至2025年，已建成多个万卡级智算集群，推理端算力占比持续上升。国产大模型的参数跃迁成为集群建设的核心引擎。未来发展将聚焦规模跃升、效能提升和算电融合三大方向。
国内发展面临的核心挑战：卡间互联效率有待提升，算力衰减问题影响较大；工程化能力需要同步突破，以匹配超大规模集群的运行需求；算力资源碎片化异构化问题凸显。

三、超大规模智算集群总体架构与核心技术

核心设计原则：坚持构建极致算力基座、优化分布式协同训练体系、保障长周期稳定训练能力、提供弹性算力调度体系、坚持全栈智算云服务技术、坚持推进绿色低碳技术落地。
总体架构：分为机房配套层、基础设施层、智算平台层、应用使能层和智算运营和运维域。
硬件架构技术：包括高密算力节点技术、高密度集群部署技术和算存网协同优化技术。
- 高密算力节点技术：在有限的物理空间内集成更高密度的计算资源，提高数据中心的空间利用率，降低运营成本，提升数据处理的效率和速度。
- 高密度集群部署技术：通过水平增加节点来提升系统性能与容量，广泛应用于数据中心、高性能计算和人工智能等领域。
- 算存网协同优化：通过“计算-存储-网络”全链路资源联动与调度优化，破解数据搬运延迟、带宽不匹配、资源利用率低等系统性问题，实现集群整体效能最大化。
全栈工程化技术：包括算力统一调度、大模型训推加速和运维与稳定性。
- 算力统一调度：基于Kubernetes云原生技术，实现异构算力统一调度，提升整集群资源利用率。
- 大模型训推加速：依托全栈技术创新，从算法优化、硬件适配、框架升级等多维度突破，实现超大规模模型训练周期缩短与推理成本降低。
- 运维与稳定性：通过“全链路监控、智能容错、自动化运维”三大体系构建保障能力，保障集群高效协同与灵活调度。

四、超大规模智算集群工程化实施路径

规模化部署成本控制：超大规模集群的部署成本高，能耗与运维成本刚性，建设周期长导致资金占用成本增加。
软硬件兼容适配：异构硬件生态与多元软件框架的协同适配是超大规模集群落地的核心技术堵点。
模型及智能体服务：大模型与智能体服务的规模化交付，对集群的算力适配性、资源调度灵活性、服务稳定性提出极致要求。
超大规模智算集群运营：超大规模集群的长期运营面临资源利用率优化、稳定性保障、安全合规三大核心挑战。

五、超大规模智算集群发展趋势与发展建议

技术发展趋势：算力密度提升、AI原生架构、超智融合。
产业发展趋势：算力协同发展、算力服务普惠化。
发展建议：加强技术研发支持、推动行业标准统一、优化算力布局。

六、附录

案例：某智算集群运营案例：某智算中心旨在构建一个高性能的AI推理池，配备1024块先进的计算卡，形成一个强大的计算集群，以满足复杂AI推理任务的需求。

云计算开源产业联盟 2025年12月版权声明本报告版权属于云计算开源产业联盟，并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的，应注明“来源：云计算开源产业联盟”。违反上述声明者，本院将追究其相关法律责任。前言编制目的与意义：当前人工智能领域的发展不断加速，超大规模智算集群作为支撑大模型研发、数学经济升级的算力基础，其发展水平直接关系到科技竞争力与战略发展。编制本报告，旨在通过系统性布局，保障重要科技任务落地，为基础大模型、航天仿真气候预测、科研等领域提供算力支撑。通过超大规模建设构建数字经济发展新优势，将算力优势转化为产业优势，支撑制造业、医疗、“国，转力。本报告主要研究内容包括超大规模智算集群国际、国内发展背景、现状和意义。分析超大规模智算集群建设技术路线、建设标准与运营机制，研究建立算力供需匹配的动态平衡机制，规模化建设以及创新运营模式。同时，报告通过分析国内外技术迭代，推动硬件、框架、集群的端到端协同，形成服务器、集群、模型、应用的完整生态，让超大规模集群成为AI产业创新基础，带动相关产业发展。编制依据：主要编制依据包括：《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》、《国务院关于深入实施“人工智能+”行动的意见》等国家总体规划。《算力互联互通行动计划》《算力基础设施高质量发展行动计划》等算力专项政策，《超智融合集群能力要求》《高性能计算(HPC)云平台能力要求》等行业标准与规范，以及各地产业发展规划、落地经验和企业发展态势。参编单位：中国信息通信研究院、中国电信集团有限公司、杭州阿里云飞天信息技术有限公司、之江实验室、联通数字科技有限公司、中兴通讯股份有限公司、百度在线网络技术（北京）有限公司、北京探微芯联科技有限公司、京东科技信息技术有限公司、恒为科技（上海）股份有限公司、上海芯问科技有限公司。参编专家：陈屹力、郑立、刘天赐、应启明、崔娜妮、涂传滨、敖波、杨非、陈升、孙柠、傅科杰、唐哲、黄强、王洪斌、李秦洋、严昱瑾、史磊、缪懋、沈天珺、刘学、孙玉增、范震、卿华、贺皓韩冬、周欣悦、张连富、陈纲。目录、研究背景与意义 1.1超大规模智算集群的需求导「1.2 产业发展需求1.3研究报告核心价值1.4 研究范围与边界二、超大规模智算集群产业现状、趋势与挑战4 2.1 国际发展现状和趋势2.2 国内发展现状和趋势2.3国内发展面临的核心挑战三、超大规模智算集群总体架构与核心技术 3.1 核心设计原则3.2 总体架构113.3.硬件架构技术133.4 全栈工程化技术19 四、超大规模智算集群工程化实施路径.25 4.1规模化部署成本控制254.2 软硬件兼容适配.264.3 模型及智能体服务274.4超大规模智算集群运营五、超大规模智算集群发展趋势与发展建议28 5.1 技术发展趋势285.2产业发展趋势325.3 发展建议33 六附录36 案例：某智算集群运营案例一、研究背景与意义 1.1 超大规模智算集群的需求导向超大规模智算集群是支撑人工智能（AI）大模型发展和产业创新的核心基础设施，智能算力已超越基础算力成为增长主导引擎。国际头部科技企业正积极部署十万卡及以上的超大规模集群。国内方面，智算集群建设在政策驱动下快速发展，市场规模持续扩大，力求实现算力产业的创新引领。超大规模集群是国内应对硬件设备受限、单卡算力不足问题的关键，通过架构研发与全链条整合，形成完善 AI产业。同时，超大规模智算集群作为顶层项目具有极强的“示范效应”，拉动包括硬件制造、组件制造、网络基础设施、能源生产和电源管理等产业链发展。是对算力是核心生产力战略的实践，为在大模型研发上构建显著的技术优势，积极布局下一代通用人工智能研发的算力制高点。 1.2 产业发展需求大模型与生成式AI的行业落地正推动算力需求从互联网领域向传统行业渗透，工业、车联网等领域已形成明确算力需求场景，且需求规模随人工智能的应用深化持续扩张，大规模、高端算力的需求迫切。软件及信息技术服务业方面，国内大模型创新研发主体已逐步收敛，从事基础大模型研发的厂商主要包括互联网巨头，以及大模型初创企业两类主体。工业方面，算力需求主要来自于工业AI、数字李生、工业大数据等前沿场景，自前我国5G工广的智能化、信息化水平在各自行业处于领先水平，部署的算力规模远高于同行业其他企业。未来工业大模型将深度参与工业IT任务编排和OT生产制造，工厂需要根据生产线数量和智能生产环节数量部署大量算力。智慧交通方面，智慧交通领域大模型建设和应用加速兴起。2025年3月，山东、陕西、江西等六省交通集团联合发布的经纬交通大模型，覆盖‘建、管、养、运、服”全链条AI场景。此外，阿里、科大讯飞、华为、海信等互联网企业相继发布交通大模型，赋能城市、高速交通智能化。头部车企与云服务厂家加速合建智算中心。 1.3研究报告核心价值本报告立足算力建设格局与产业发展痛点，为超大规模智算集群建设路径和产业发展提供支撑。业联一是战略发展价值，本报告聚焦国际国内发展现状，系统梳理智算集群从方卡到十方卡级的突破路径，为保障算力领域先进性提供技术路线图，助力在人工智能发展中构建高性能算力底座。二是技术突破价值，报告针对智算集群互联效率、网络架构、存储适配等核心瓶颈，提出“算存网协同优化”“全栈工程化适配”等系统性解决方案，明确高密度节点部署、分布式协同训练、智能调度等关键技术的落地标准，为大规模集群效能提升提供实操指引。三是产业赋能价值，报告紧扣大模型迭代与行业智能化转型需求，打通“技术-工程-应用”全链条，通过梳理集群典型实践案例，提炼可复制的集群建设与运营模式，支撑工业、交通、医疗等领域的算力需求落地，推动算力优势转化为产业竞争力。四是决策支撑价值，基于国际经验与国内现状，提出核心技术研发、行业标准统一、算力布局优化等针对性建议，既为完善“东数西算”“数字中国”等战略配套提供决策参考，也为地方政府制定差异化激励政策、避免重复建设提供依据。 1.4 研究范围与边界本报告贯穿超大规模智算集群全链条，涵盖基础设施（算存网硬件）、智算平台（调度与训练框架）、应用使能（模型工具链）、运营运维各大环节，涉及硬件设备广商、集群建设方、云服务商、行业用户等多元主体。报告聚焦硬件架构、全栈工程化技术、工程落地路径三大核心技术方向，重点解析万卡至十万卡级集群的关键技术突破点。报告纳入主要经济体（美欧日韩）的发展现状与动态，系统梳理西部绿电）的布局优化方案。报告重点聚焦集群系统级协同技术与工程化落地方案，以规模化、通用性场景为核心。聚焦地方、企业、科研机构等核心主体的协同发展，重点阐述技术演进与落地路径并提供建议。二、超大规模智算集群产业现状、趋势与挑战 2.1 国际发展现状和趋势在政策规划持续深化、基建投入精准发力及企业研发迭代加速的多重推动下，美欧日韩正以“规模突破+技术融合”为核心，结合自身优势形成差异化发展路径，算力竞争格局持续升级美国方面通过国家战略与资本协同，既有科技巨头的规模化突破也有政府层面的精准布局，加速推进超大规模智算集群建设，目前已定，构建软硬一体、生态闭环的智算霸权体系，使AI发展呈现“强者恒强”的马太效应。英伟达主导的集群规模持续刷新纪录：H100集群已实现十万卡级常态化应用，马斯克旗下xAI团队凭借约20万片H100完成Grok4大模型的训练与发布,Meta部署的超10万卡H100集群则为Llama4的迭代提供稳定算力支撑，单集群即可高效完成万亿参数模型的预训练任务。“星际之门”计划推进顺利，美国德克萨斯州“星际之门一号站”分阶段部署的6.4万块GB200，总算力达576EFLOPS，首批1.6万块已于2025年夏季正式投入使用，成为算力密度最高的集群之一。AWS则持续深耕云原生赛道，基于 Trainium构建的集群通过优化分布式训练框架，实现从大模型预训练到推理的全流程弹性算力供给，适配企业多样化需求。欧盟以EuroHPC“AI工厂”计划为核心的算力整合战略持续推进，该计划已追加500亿欧元公共投资，预计撬动2000亿欧元社会资本涌入智算领域，重点聚焦AI优化超算建设与行业融合应用。目前欧盟正通过统一技术标准与智能调度系统，打通德国、法国、意大利等成员国的AI工广与超算中心，形成跨区域分布式协同算力网络为气候变化模拟、个性化药物研发、工业大模型训练等算力密集型场景提供支撑。在绿色发展方面，欧盟已明确要求所有新建智算集群可再生能源供电占比不低于80%，并通过液冷技术升级与智能能源管理系统，将核心集群的PUE值控制在1.15以下，部分北欧节点借助水电资源实现“零碳算力”运营，推动算力扩张与可持续发展的协同。当前欧盟正联合本土科技企业开发适配区域需求的智算软件栈，减少对美国技术的依赖，同时计划在2026年完成5个跨成员国算力枢纽的互联互通，进一步提升区域算力调度效率。日韩依托半导体产业根基，将智算集群建设与核心器件创新深度绑定，强化“芯片-集群-应用”的产业闭环。韩国延续存储技术优势，三星HBM3E产品已实现大规模量产，其1.2TB/s的高带宽与低延迟特性，使韩国本土智算集群的数据吞吐效率提升，有效适配大模型训练中的高频数据交互需求。2025年四季度，三星与现代汽车合作搭建的汽车AI 专用集群正式启用，基于HBM3E 与 AI芯片的组合，为突围”双线发力：2025年11月，日本政府宣布追加2525亿日元（约16亿美元）额外预算，专项支持AI与半导体领域发展，其中超60%资金将用于智算集群基础设施与人才培养。技术布局上，日本理研计于2026年春投入两台基于英伟达Blackwell架构的新型超级计算机，总计搭载 2140 块 GPU，分别聚焦 AI 驱动的科学研究与量子-经典混合计算测试。这两台集群采用Quantum-X800 InfiniBand 实现高速互联，并接入CUDA-X软件栈优化性能，不仅将成为下一代超算FugakuNEXT 的技术试验平台，还将通过 SQC接口连接日本国内量子资源，构建分布式混合计算网络，强化在精密制造、量子算法研发等领域的算力优势。 2.2国内发展现状和趋势在算力布局中，超大规模智算集群形成“政策锚定方向、技术夯实基础、产业驱动升级”的发展格局，依托绿电资源烹赋与算力生态，“，，路径。政策层面，已建立覆盖顶层设计到地方落地的完整政策支撑体系，为智算集群发展划定清晰路线图。智算集群建设被纳入“数字中国”战略核心框架，2022年启动的“东数西算”工程将超大规模智算集群作为西部算力枢纽的核心载体，在内蒙古、宁夏、贵州等8个国家枢纽节点划定集聚区，实现东部算力需求与西部资源的精准匹配。2024年国家四部门联合发布《数据中心绿色低碳发展专项行动计划》%8国，指标，强化算电协同导向。地方层面，AI产业密集区已率先出台专项激励政策：《上海市关于促进智算云产业创新发展的实施意见（2025-2027年）》聚焦智算云融合，《北京市算力基础设施建设实施方案（2024一2027年）》明确算力规模与效能目标，形成“国家定框架、地方出细则”的协同推进机制，为超大规模集群落地提供制度保障。目前，智算集群建设已进入规模化阶段，但“规模增速快、效能待提升”的特征显著。截至2025年，已建成多个万卡级智算集群,推理端算力占比持续上升，国家数据局数据显示我国日均token 消耗突破30万亿，多家国内芯片已能满足推理性能要求，数个万卡集群均处于满负载运行状态，集群利用率稳步提升。国产大模型的参数跃迁成为集群建设的核心引擎。随着通义千问、DeepSeek、豆包等模型从千亿向万亿参数突破，算力需求呈指数级增长，倒逼集群在算力密度与通信效率上持续升级，行业正形成“大模型需求→集群技术升级→更大规模模型研发"的正向循环。未来发展将聚焦三大方向：一是规模跃升，头部企业加速向十万卡级集群突破，缩小与国际领先水平

点击免费查看完整报告

云计算开源产业联盟：2025超大规模智算集群关键技术及工程落地研究报告

一、研究背景与意义

二、超大规模智算集群产业现状、趋势与挑战

三、超大规模智算集群总体架构与核心技术

四、超大规模智算集群工程化实施路径

五、超大规模智算集群发展趋势与发展建议

六、附录

你可能感兴趣

超大规模智算集群关键技术及工程落地研究报告

万卡级超大规模智算集群网络运维挑战及实战

2024年中国企业开源治理全景观察报告-云计算开源产业联盟

云计算开源产业联盟

智算运维产业发展研究报告（2025）

中国信息通信研究院：智算运维产业发展研究报告（2025）

【风口研报·公司】自研国产高性能GPU，这家公司智算推理、训推一体等多产品量产并商业化落地，已部署已交付10余个智算集群；这家公司传统业务受益先进封装、PCB等检测需求推动

【财联社早知道】工信部等三部门统筹推进先进计算产业发展，机构称AI算力需求将持续高景气，这家公司子公司面向市场提供先进智算集群公共服务；小米YU7

动态点评：积极建设海南智算产业集群标杆，23H2已交付首栋液冷智算中心

万卡级智算集群网络建设运维及演进