行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

先进计算产业发展联盟技术分享：超大规模智算中心技术综述

信息技术 2025-08-27 - 先进计算产业发展联盟 Lee

时代背景与GW级AIDC演进

AI算力需求呈指数级增长，模型参数与训练算力在过去6年增长超过5个数量级，推动数据中心规模从MW走向GW。智算中心（AIDC）经历三阶段演进：Phase 1（服务器即计算机，2012–2022，kW级机柜，千卡集群），Phase 2（整机柜即计算机，2012–2022，MW级机柜，万–十万卡集群），Phase 3（智算中心即计算机，2026–2030，GW级园区，百万卡集群），最终形成GW级AI Factory。

GW级AIDC核心挑战

GW级AIDC面临“五道墙”挑战：算力墙（单芯片FLOPs增速放缓）、能耗墙（单机柜≥1MW，需800V HVDC）、散热墙（单芯片TDP突破3000W，需两相液冷）、互连墙（万亿参数大模型需Scale-Up开放协议）、内存墙（NVLink纵向扩展瓶颈）。破局之道在于系统设计协同。

OCP开放系统蓝图

OCP推出《Open Systems for AI v1.0》蓝图，涵盖应用软件、DC IT基础设施、DC物理基础设施、系统管理层，推动全栈开放协作。关键规范包括ESUN、SUE-T、UALink、ORW、MGX、Catalina、Mt Diablo等。

技术革命

供电革命：800V HVDC成为兆瓦级机柜标配，NVIDIA Kyber/Vera Rubin Ultra（2027起）将采用800V DC。驱动力包括NVIDIA Kyber机架需求、Meta等呼吁开放标准、GaN/SiC技术成熟、BBU取代UPS。算电协同是关键，需规划、建设、运营、金融协同。
散热革命：风冷极限已至，液冷渗透率2026年将从30%跃升至70%。关键技术包括Gen1冷板式液冷、Gen2单相浸没、Gen3两相浸没/泵驱两相，两相液冷PUE趋近1.04。
网络革命：从Scale-Out转向Scale-Up，NVLink/PCIe/UALink/ESUN/SUE-T等协议竞争。Scale-Up范围包括POD间（Ultra Ethernet/ Spectrum-X）和机柜内（PCIe/NVLink/UALink/ESUN+SUE-T），关键应用分别为跨地域负载平衡和万亿参数大模型一致性内存视图。

全球GW级AIDC实践

NVIDIA路线图：Blackwell→Rubin→Kyber→Feynman，Vera Rubin DSX参考架构落地。主要玩家包括Microsoft（2GW扩张）、Meta（Prometheus集群）、AMD（Helios）、OpenAI、xAI、Oracle等，地缘政治变量影响海外建设。

中国GW级AIDC路径

中国智能算力规模占全球29%，CAGR 2023–2028预计46.2%。政策驱动“东数西算”+“双碳”+OCP中国社区。浪潮信息实践包括元脑智算算力仓、SD200超节点、算电协同、800V HVDC与原生液冷预研。商业模式创新包括算力REITs（润泽科技已落地）。

演进趋势与展望

开放化：OCP生态推动算力普惠。
专用化：训练向低电价发电站集中，推理向城市边缘下沉。
全栈协同：芯片-机柜-设施一体化设计。
Agent-First Datacenter：Agent自主调度算力，Token计费，秒级释放。 2030展望：分布式算力中心与GW级AIDC互补，“算力跟着能源走”，AI支出占IT支出41%，全球投资热潮。

关键数据

AI模型参数与训练算力增长5个数量级。
NVIDIA 2027年订单指引$1万亿。
中国算力CAGR（23–28）占全球29%。
2026年液冷渗透率70%。
元脑SD200单机承载4万亿参数单体模型，Token 7.3 ms。
沙特PIF追加$50亿投资中国西部智算。

超大规模智算中心技术综述 GW-Scale Open AIDC（吉瓦级开放智算中心）研究报告目录 Table of Contents 时代背景AI浪潮与GW时代的到来 GW级AIDC核心挑战Five Walls of Scale 01 OCP开放系统蓝图Open Systems for AI v1.0 供电革命:800V HVDC兆瓦级机柜的能源新基建 03 04 散热革命:液冷与两相MW级整机柜的热管理网络革命:Scale-UpPCIe/ESUN/SUE-T/UALink与超节点 05 06 全球GW级AIDC实践NVIDIA/Meta/Microsoft/AMD Open Rack Wide与系统设计ORW/MGX/Catalina/Mt Diablo 07 08 演进趋势与展望Roadmap与系统化思维 10 P A R T0 1 时代背景 The Era of Gigawatt AI 「AI已不再是单一GPU或单台服务器的优化课题。模型参数从亿级到万亿级,数据中心规模从MW走向GW,这是一场从芯片、机柜、系统到设施的全栈结构性变革。」算力需求的指数级爆炸 AI模型参数与训练算力(FLOPs)在过去6年增长超过5个数量级 NVIDIA Blackwell+Rubin2027前订单GTC 2026:较一年前预测翻倍 $1T 训练集群规模十年间扩张1万卡→10万卡→百万卡时代 10× NCP累计部署(1M+ GPUs)较2025年GTC的550MW翻3倍 1.7GW 中国智能算力CAGR(23-28)占全球29% (仅次于美国34%) 46% 智算中心(AIDC)的三阶段演进从“GPU服务器堆叠”到“整机柜系统”再到“GW级AI Factory” P H A S E1 P H A S E2 P H A S E3 Phase 3 ·智算中心即计算机Gigawatt AI Factory Phase 2 ·整机柜即计算机Rack-Scale Phase 1 ·服务器即计算机Server-Centric 时间2026–2030规模GW级园区·百万卡集群时间2012–2022规模kW级机柜·千卡集群时间2023–2026规模MW级机柜·万–十万卡集群 ▸以单台GPU服务器为原子单元▸风冷为主, PUE 1.4–1.6▸InfiniBand横向Scale-Out为主▸训练以CV/NLP传统模型为主 ▸Vera Rubin DSX参考架构落地▸跨园区AI Super-Factory Scale-Across▸Agentic AI/推理时代(Token经济)▸电网协同/源网荷储一体化 ▸GB200/Rubin NVL72/144整机柜▸液冷+800VDC成为新标配▸NVLink纵向Scale-Up成为关键瓶颈▸MoE/万亿参数大模型驱动 P A R T0 2 GW级AIDC的核心挑战 Five Walls of Scale 「当训练集群从万卡走向百万卡、数据中心从MW走向GW,传统数据中心的每一根技术支柱都将被推向物理极限。」—5道墙:算力墙、内存墙、能耗墙、散热墙、互连墙 GW级AIDC的“五道墙” 从芯片到设施—AI规模化部署的五大物理与工程边界单芯片FLOPs增速放缓; DennardScaling终结;必须靠Chiplet/3D封装/异构(GPU+LPU+CPU+DPU) 单机柜≥1MW,园区→GW级;380VAC体系不够用;需800VHVDC/源网荷储/电网级协同破局之道:以系统设计为中心 2.2 从“GPU盒子”→“整机柜系统”→“数据中心整体”—协同设计是唯一出路 P A R T0 3 OCP开放系统蓝图 Open Systems for AI v1.0 AI数据中心需要从芯片到电网的全栈开放协作；2025年9月26日, OCP中国社区成立GW-Scale Open AIDC专题组。 OCP开放系统蓝图全景 Open Systems for AI: Blueprint for Scalable Infrastructure v1.0 (基于OCP白皮书) 2026.04 OCP最新交付应用与软件层 Open Data Center Ecosystem for AI Application & SoftwareLLM/MoE训练框架· Agentic AI /推理调度· AI Computing Continuum (云边端) ①Next-Gen ML Infra Design Principles②Low Voltage DC Power Distribution③Energy Storage Systems Requirements④Telemetry & APIs (3rd-partyintegration)⑤ESUN—Network OperatorRequirements⑥Open Rack Wide (ORW)规范⑦Open Cluster Designs (POD-M, Cluster-N)⑧Foundation Chiplet SystemArchitecture DC IT基础设施 DC IT InfrastructureXPU(GPU/LPU/TPU) · Chiplet · MGX/Catalina/Helios · Open Cluster Designs (POD-M,Cluster-N) DC物理基础设施 DC Physical Infrastructure 开放参考设计· 800V HVDC/LVDC ·冷板/两相液冷·储能(BBU/ESS) ·电网协同系统管理层 Systems ManagementDC-SCM · Telemetry & APIs · Third-party Integration · Crypto-Agile FPGA(后量子安全) P A R T0 4 供电革命:800V HVDC Power Revolution 单机柜功率从100kW走向1MW+,园区从10MW走向GW;传统380VAC +集中UPS体系无以为继。800V HVDC + BBU +直流微电网,正成为AIDC供电的‘黄金标准’。 800V HVDC:兆瓦级机柜的供电新基建 NVIDIA Kyber/Vera Rubin Ultra (2027)起,800V HVDC将取代480VAC（美国）成为标配驱动力/ Drivers NVIDIA Kyber机架(2027)576块Rubin Ultra GPU/机架,需800VDC母线 Meta + Microsoft + Google联名公开信呼吁OCP开放DC电源标准 3OCP 2026.04 LVDC规范≤1500VDC低压直流分发架构正式发布 GaN/SiC功率半导体800V高压GaN器件量产支撑高效转换 BBU取代UPS锂电池BBU瞬时大功率输出,降维打击UPS 系统级约束算电协同：GW级AIDC的第一性原理先算清楚有多少电，再决定放多少算力全球数据中心功耗：67.7 GW（IDCA 2026）两年增长36%，美国占29.2 GW（~6%全美电力） ①规划协同算力规划必须前置电力规划工信部PUE 1.15红线中国算力-电力匹配地图：•内蒙古（绿电充裕）→算力枢纽→东数西算•张家口（风光储）→智算中心→润泽REITs•贵州（水电便宜）→数据中心集群•东部（电力紧张）→推理/时延敏感业务 ②建设协同源网荷储一体化张家口"绿电直连"试点 ③运营协同峰谷电价→算力调度夜间训练、白天推理丁薛祥副总理5月18日调研算力网："算电协同、以电强算、以算促电"——首次将电力提升到与算力同等战略高度 ④金融协同算力REITs +绿电收益沙特PIF 50亿美元西部智算第一次把电力提升到和算力同等的战略高度 P A R T0 5 散热革命:液冷与两相 Cooling Revolution 「单芯片TDP从700W→1500W→3000W,机柜热密度突破1MW;风冷物理极限早已被击穿。液冷不再是‘可选项’,两相液冷是GW级AIDC的必然路径。」液冷三代技术演进:冷板→单相→两相从被动冷却到主动相变—解热能力提升一个数量级,PUE趋近1.04 G e n1冷板式液冷 G e n3两相浸没/泵驱两相 G e n2单相浸没单芯片TDP≤ 1000W 单芯片TDP≥ 3000W 单芯片TDP≤ 1500W 机柜功率MW级机柜功率≤ 200kW 机柜功率≤ 132kW PUE1.15–1.25 1.06–1.10 PUE PUE≤ 1.04 ▸相变蒸发,潜热散热▸解热≥250W/cm²▸面向GW级AIDC▸Accelsius/浪潮信息 ▸整机浸入电介质液▸氟化液或合成油▸Intel能源部订单▸阿里巴巴落地 ▸液体不接触芯片▸水/乙二醇为主▸存量改造首选▸NVIDIA GB200/Rubin NVL72标配产业拐点信号液冷渗透率跃升：从"可选配置"到"强制标配" 需求倒逼 GB300 NVL72单机柜140kW风冷物理极限已触及成本下降冷板单价同比-40%3年ROI转正，规模效应驱动关键催化事件：2024:冷板单价降40%（阿里云披露） 2025: GB300 NVL72量产，单机柜140kW2026:工信部PUE 1.15红线2028:风冷物理极限全面触及阿里云新建数据中心100%液冷|浪潮液冷整机柜已交付数万节点|行业预测：2026年液冷渗透率从30%跃升至70% P A R T0 6 网络革命:Scale-Up From Scale-Out to Scale-Up 「Scale-Out已是成熟战场, Scale-Up才是AI性能的新前沿。NVLink/PCIe/UALink/ESUN/SUE-T/Spectrum-XGS—一场围绕XPU之间‘最后一英寸’的开放协议大战正在展开。」三种规模化:Scale-Up / Scale-Out / Scale-Across 从机柜内的内存语义互连,到跨园区的AI Super-Factory Scale-Across Scale-Up 范围POD之间(10K–100KXPU)主流协议Ultra Ethernet (UEC)/ Spectrum-X / NSF带宽800G→1.6T端口·多跳时延微秒级范围机柜/POD内(8–576XPU)主流协议PCIe/NVLink6/UALink / ESUN+SUE-T带宽1.8 TB/s单链路·单跳时延亚微秒级时延毫秒级关键应用GW→multi-GW AI Super-Factory;跨地域负载平衡关键应用AllReduce/AllGather;数据并行(DP)、流水线并行(PP) 关键应用万亿参数大模型一致性内存视图;张量并行(TP)关键瓶颈 Scale-Up开放协议生态:PCIe/ ESUN / SUE-T /UALink 四条并行路线—PCIe务实落地·以太网三件套面向未来·中国厂商以PCIe切入Scale-Up开放生态务实路线vs未来路线|PCIe:基于成熟标准,即时落地,生态最广·以太网三件套(ESUN+SUE-T+UALink):面向GW级超节点的下一代开放栈 PCIe ESUN SUE-T UALink Ethernet for Scale-Up NetworkingL2/L3以太网帧/转发 Ultra Accelerator Link内存语义(基于Eth物理层) PCIe Gen5/6 Scale-Up Fabric基于成熟标准·内存语义原生支持 Scale-Up Ethernet Tran

点击免费查看完整报告

你可能感兴趣

【财联社早知道】工信部等三部门统筹推进先进计算产业发展，机构称AI算力需求将持续高景气，这家公司子公司面向市场提供先进智算集群公共服务；小米YU7

未知机构2025-05-28

电子信息研究2025年第1期（总第97期）：先进计算产业发展研究报告（2024 版）

信息技术赛迪2025-01-20

【上海:推动下一代移动通信、量子计算、光子计算等前沿技术产业布局】财联社10月14日电,上海市经济和信息化委员会日前印发《上海市智能终端产业高质量发展行动方案(2026-2027年)》,加速未来终端研发。推动下一代移动通信、量子计算、光子计算等前沿技术产业布局。开展先进无线通信、新型网络架构、空天地一体等前沿技术研究;推动量子计算领域算法纠错等核心难点研发突破,发挥量子计算的优越性,研制未来终端概念样机,并不断探索向垂直行业应用渗透,形成特色应用场景模版。

未知机构2025-10-14

先进计算产业发展联盟技术分享：超大规模智算中心技术综述

时代背景与GW级AIDC演进

GW级AIDC核心挑战

OCP开放系统蓝图

技术革命

全球GW级AIDC实践

中国GW级AIDC路径

演进趋势与展望

关键数据

你可能感兴趣

【财联社早知道】工信部等三部门统筹推进先进计算产业发展，机构称AI算力需求将持续高景气，这家公司子公司面向市场提供先进智算集群公共服务；小米YU7

电子信息研究2025年第1期（总第97期）：先进计算产业发展研究报告（2024 版）

云计算开源产业联盟：2025超大规模智算集群关键技术及工程落地研究报告

先进动力技术联盟先进内燃机调查（轻型汽车技术）

2022年绿色计算产业联盟行业解决方案示范案例集

台积电 x 英伟达：突破热壁：先进冷却技术如何驱动未来计算

华为&超级计算创新联盟：2023数据密集型超算发展白皮书2023

JYGJ半导体先进制程技术分享：以台积电为例

2018年3季报点评：净利润快速增长，先进计算产业创新中心落地

先进计算产业发展联盟技术分享：超大规模智算中心技术综述

你可能感兴趣

【财联社早知道】工信部等三部门统筹推进先进计算产业发展，机构称AI算力需求将持续高景气，这家公司子公司面向市场提供先进智算集群公共服务；小米YU7

电子信息研究2025年第1期（总第97期）：先进计算产业发展研究报告（2024 版）

云计算开源产业联盟：2025超大规模智算集群关键技术及工程落地研究报告

先进动力技术联盟 先进内燃机调查（轻型汽车技术）

2022年绿色计算产业联盟行业解决方案示范案例集

台积电 x 英伟达：突破热壁：先进冷却技术如何驱动未来计算

华为&超级计算创新联盟：2023数据密集型超算发展白皮书2023

JYGJ半导体先进制程技术分享：以台积电为例

2018年3季报点评：净利润快速增长，先进计算产业创新中心落地

先进动力技术联盟先进内燃机调查（轻型汽车技术）