AI智能总结
前言 随着近年来人工智能(AI)产业快速发展,AI业务负载已经逐步成为数据中心的重要组成部分。为了满足爆发式增长的AI业务对算力的需求,智算设备正加速向高密化、液冷化、集群化方向发展。机柜的功率密度和集群的规模快速提升,给机房物理基础设施(包括供配电、制冷设备等)规划设计和快速部署带来颠覆性的挑战。为应对这些挑战,我们需要重新思考数据中心从智算设备到机房物理基础设施的系统规划和设计,从 而 建 设 出 可 以 适 应 未 来 A I 业 务 演 进 发 展 的 智 算 数 据 中 心(AIDC)。 本白皮书通过分析未来的AI整机柜、超节点和集群发展趋势,以及对机房物理基础设施的关键挑战,并给出面向未来的AIDC机房规划设计思路和部署模式参考建议,旨在联合产业链,共铸AIDC标准体系,共建AIDC生态。 CONTENTS 目录 01AI业务负载及算力设备发展趋势 2.1AIDC机房规划与设计挑战P22.1.1 散热系统设计挑战2.1.2 供配电系统设计挑战2.1.3 建筑结构设计挑战2.1.4 网络布线设计挑战P32.2AIDC机房建设周期挑战 1.1AI业务负载发展趋势P11.2AI算力设备发展趋势P1 AIDC机房设计思路及部署模式建议 4.1 共铸AIDC标准体系P94.2 共建AIDC生态P94.3 与国家政策同频共振P10 AI业务负载及算力设备发展趋势 高密化:为支撑规模算力供应,AI芯片的算力密度和功率密度快速增长,整机柜设计上为了获得低时延带来的计算效率收益,单机柜内电互连域的芯片数量也在持续增长,整机柜功耗逐步从50kW演进到未来的300kW以上,机柜功耗发展预测如下表: 1.1 AI业务负载及应用发展趋势 当前AI模型正朝着超大规模、多模态融合的方向快速发展,模型规模从GPT-1到GPT-5,模型的参数量从1.17亿提升至数万亿,模型结构也从稠密LLM模型向MoE稀疏化模型以及多模态模型持续演进发展。大模型的发展呈现出两条路线:一是以超大规模参数+新算法挑战模型上限,通过模型参数量、数据量的增长逐步的提升模型效果;二是优化模型架构降低AI使用门槛,让各行各业都有机会参与到AI的浪潮中,实现人工智能普及化。 液冷化:随着单芯片和整机柜功耗的快速增长,传统的风冷散热模式已经无法满足AI高密机柜散热需求,液冷因更高的散热能力和系统能效更优成为AI算力基础设施的主流部署模式。 在行业应用方面,智能化转型正在加速,AI技术正在深度赋能各个业务场景。自动驾驶领域利用AI技术处理海量传感器数据实现实时辅助驾驶决策,金融行业利用AI进行高频交易分析和风险预测,医疗健康领域则通过AI辅助诊断和药物研发,智能制造则运用AI优化生产流程。未来随着多模态大模型与具身智能的发展,AI将更深层次地融入生产生活领域。 集群化:传统服务器堆叠模式因服务器之间缺乏大 带 宽 、 低 时 延 互 联 使 得 大 模 型 依 赖 的 张 量 并 行(TP)、专家并行(EP)、序列并行(SP)、流水线并行(PP)和数据并行(DP)等大规模分布式混合并行算法通信效率低下,无法支撑大模型训练的TTA(Time To Accuracy)要求。AI超节点集群正在成为业界主流选择,基于Scale-Up大带宽、低时延总线互联,互联域从单机8卡扩展到数百、数千卡规模,有效降低了大模型在训练过程中TP、EP等并行切分间的通信开销,大幅提升模型训练、推理性能。 无论是从AI业务负载还是应用发展趋势,都驱动算力需求呈现爆发式增长,这是AI持续演进和发展的基础。 1.2 AI算力设备发展趋势 为了支撑AI智能化时代的高速增长的规模算力需求,AI算力建设难以通过简单服务器堆叠来解决,高密化、液冷化、集群化成为算力设备的主流发展方向。 2.1 AIDC机房规划与设计挑战 2.1.2 供配电系统设计挑战 大集群规模部署供电的挑战:随着智算集群的发展,单个超节点的供电需求将演进到1~10MW,单集群供电需求将演进到数百MW。当前数据中心单个包间功率1~2MW、单栋楼10~20MW,难以满足智算集群的供电需求演进。 随着AI整机柜、超节点和集群的发展,对机房散热、供电、建筑结构和网络综合布线带来巨大变化,本章节将从这四个方面分析液冷机房在规划和设计方面的挑战: 末端配电系统高密供电挑战:当前机房给单机柜配电接口以32A/3P和63A/1P为主,随着单机柜功率密度的提升,现有配电接口难以满足未来高密AI整机柜供电需求。如针对300kW功率机柜,2N配电需要18路63A/3P供电接口,对机柜顶部的走线空间带来非常大的挑战,如果要减少供电路数,需要提升单路的供电容量,机柜末端配电系统面临跨代演进压力。 2.1.1 散热系统设计挑战 机 房 风液 比 变化 带 来 的挑 战 :单柜 功 率密 度从50kW演进到300kW时,机柜的液冷占比也会逐步从当前70%提升到90%+,机房的风液散热能力需具备足够的弹性。 机房液冷流量、流阻非线性增长带来的挑战:伴随着单柜功率密度的提升,液冷二次侧流量、流阻的非线性增长,对二次侧换热系统,包括CDU、二次侧液冷主管、支管的规划和设计选型提出更高的要求,二次侧系统需具备相应弹性。 2.1.3 建筑结构设计挑战 机房层高挑战:随着AI机柜功耗密度提升,为了解决机柜散热,需要更大直径的液冷管路,进而需要更高的架空地板,与此同时,未来单柜风冷散热功耗将达到20kW,需要更高的回风天花空间。另一方面,高功率机柜供电电缆需要更大截面的智能母线,超节点互联需要10倍级光纤数量,供电和互联走线要求更大的柜顶空间。综上所述,要支持高密机柜的散热、供电和互联,要求机房具备更高的垂直空间,更高的机房层高。 机房风冷需求增长对机房风冷能力的挑战:伴随AI服务器机柜功率密度的提升,AI液冷整机柜的风冷散热部分功耗也将从当前10kW走向20kW左右。当前机房风冷末端散热能力难以满足单柜风冷功耗部分的散热需求,需要有更大能力、更加高效可靠的风冷散热解决方案。 机房快速交付的挑战:在AI领域,业务上线速度可能直接决定业务的生死。机房建设如何支撑业务快速上线,成为行业共同关注的话题。据调研,有客户提出液冷机房4个月的就绪周期(业务需求确定→机房物理基础设施侧完成调测,智算设备具备入场条件的时间),甚至少量客户有2个月的就绪周期需求。当前液冷机房建设模式通常为土建框架先行建设,待智算设备确定后启动大机电、小机电的建设,这种建设模式,液冷机房交付周期需要6~8个月,难以满足业务需求。另一方面,“AI设备等机房”是极其不经济的,智算设备数个月的折旧费用即与机房物理基础设施的CapEx相当。因此,机房需提前就绪,满足智算业务快速上线需求和提升智算设备在生命周期内的使用率。 机房承重挑战:AI机柜通常以整机柜形式进行交付,随着机柜算力密度的提升,导致整柜的重量持续增加。当前AI机柜重量约1.3吨,对机房承重要求约为12kN/㎡,预计未来300kW机柜的重量将超过2吨,对机房承重要求将达到20kN/㎡。机柜重量增加后对机房结构载荷设计带来新的挑战,未来针对AI机柜部署需要考虑机房承重能力。 2.1.4 网络布线设计挑战 网络布线挑战:相比通算中心,AI数据中心由于超大规模、超大带宽需求,网络走线数量为传统通算机房的十倍级。同时,随着超节点规模的扩大,从当前的百卡级演进到未来的千卡级,超节点域内互联的低时延要求对节点间互联距离存在约束,这将对机房网络布线和平面布局带来新的挑战。 机房适配智算设备快速演进的挑战:为匹配AI负载的快速演进对算力的需求,智算设备的升级迭代周期加速到一年一代,这要求机房要具备足够的灵活性和弹性扩展能力,在机房的规划和建设模式上需具有前瞻性。 2.2 AIDC机房建设挑战 除上述液冷机房方案规划设计挑战外,AI业务快速变化特征驱动机房建设需要能够快速交付和灵活适配未来智算设备的快速演进,给液冷机房建设带来新的挑战。 AIDC机房设计思路及部署模式建议 方案二,采用近端空调方案:如在微模块近端部署小风墙(近端空调),单路成列和微模块内智算设备就近部署,封闭热通道,冷区池化,不需要回风天花。相比方案一对机房高度要求更低,但智算设备和散热设备混合部署,运维空间交叉较多,运维管理要求相对较高。 3.1 设计思路建议 AI机柜的快速演进,对建筑结构、供配电、散热及网络综合布线,从园区到楼栋、楼层设计规划带来巨大挑战。本章节将从散热、供配电、建筑结构及网络布线四个维度,提供设计思路建议。 3.1.2 供配电系统设计思路建议 3.1.1 散热系统设计思路建议 中低压配电系统与智算设备解耦设计:为了适应单个超节点的往1~10MW演进,单集群供电往数百MW演进,单个数据中心机房包间将由1MW~2MW逐渐走向10MW~20MW,单栋楼将由10MW级演进到100MW级,单个园区整体功率将到达GW级,需构建全链路高效供电体系,以实现系统能效最优。建议中低压配电系统按最大容量池化设计,供配电与智算设备采用解耦或松耦合设计,以满足不同超节点规模的弹性供电需求。中低压配电可采用“标准化、模块化、产品化”设计,支撑机电设备先行建设或者预制化交付,机房物理基础设施提前就绪。为确保安全运行,核心在于故障域隔离与控制,电池系统建议远离IT设备部署,并设置具备防火与通风措施的独立物理隔间,以有效隔离热失控风险。 风、液同源兼容不同风液比设计:为兼容AI液冷整机柜风、液比例变化,可采用风、液同源,前端冷源和一次侧系统采用同一方案,末端按照风液需求进行设计,满足不同风液占比需求的弹性部署。 液冷散热弹性和可靠性设计:液冷CDU容量和二次侧主管管径可按照需支持的最高功率密度机柜的散热需求进行设计,二次侧支路通过末端变径或双接口合一适配不同功率AI整机柜部署。液冷系统可集成工质关键参数(如电导率、PH值)的实时监测功能,实现工质健康度预测与主动维护,保障智算设备可靠运行。 高密风冷散热方案设计:为满足未来智算设备单柜风冷20kW左右散热需求,建议采用如下两种方案: 方案一,采用双侧房间级空调方案:如在房间双侧部署大风墙(房间级空调),增加制冷末端数量提升散热能力。相比单侧房间级空调方案,可减少冷热通道宽度,降低天花回风高度,减少机柜互联距离。 末端配电接口柔性设计:应对AI整机柜的高密化发展趋势,机柜末端配电(负载端)建议采用融合柔性的配电方式。如末端采用智能母线进行机柜配电,智能母线始端箱和主母线可根据未来代际功率需求设备进行设计,插接箱可设计成不同容量规格可更换,支持不同功率AI机柜部署。 3.1.3 建筑结构设计思路建议 机房承重设计:机房土建的生命周期通常40~50年,土建成本只占机房CapEx的10%左右,以较小的成本涨幅(<1%机房CapEx)提升智算设备区的结构承重能力,避免后续投入更高的成本去做结构加固改造,是更经济的手段。机房承重设计建议留有裕量,新建液冷机房的承重能力建议按照20kN/㎡或以上进行设计。 机房层高设计:当单柜功率演进到300kW时,随着散热、供电和组网对高度空间需求的增加,在微模块层面对水电网空间需求约为5米(未包含消防管路、热风回风腔、天花板、梁、机房主走线桥架等部署高度空间)。在此基础上需再考虑约1米的空间用于消防管路、热风回风腔、天花板、机房主走线桥架等部署高度空间,以及约1米的梁高,机房的层高需求约为7米。新建液冷机房时,建议按照不小于此层高进行设计。 3.1.4 网络布线设计思路建议 针对大规模集群机房设计,建议按照机房规划最大集群部署需求,充分考虑走线空间需求和走线距离约束,从园区到机楼分层进行网络布线规划设计: 1)园区光纤走线路由容量根据最大集群进行规划设计,采用双路由设计且无交叉,易于扩容,采用管沟或管廊方案,管沟或管廊内采用封闭线盒方案。 2)机房楼入户双路由设计,机房楼对角设计无交叉。入户容量根据跨机房楼最大走线量、光纤拐弯半径、分期敷