行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2025年中国AIDC产业发展白皮书：智算中心如何撑起大模型时代的蓝图？

信息技术 2025-07-10 袁栩聪,王利华头豹研究院机构上传

研究报告总结

大模型训练层

大模型训练全流程框架：包括预训练、监督微调和人类反馈强化学习三个阶段，通过构建模型基础能力并完成价值对齐，最终得到兼具强大能力与可靠价值观的模型。
预训练阶段：核心方法是自回归语言建模，通过海量文本学习统计规律并引入任务提示，获得特定任务完成能力。关键工具包括批量大小调控、学习率策略、AdamW优化器、正则化与梯度裁剪等，旨在提高效率、降低成本、保证稳定并加快收敛。
预训练阶段的核心价值：利用海量语料提取深度通用知识与语义表示，提升微调效率和模型泛化能力，降低算力与开发成本，并支持快速迭代。
后训练阶段：包括监督微调、奖励模型训练与PPO强化学习，通过融合人工偏好反馈与强化学习优化生成策略，提升模型的对话质量、安全性和人类意图对齐度。
后训练阶段的核心价值：通过引入人类偏好反馈与安全约束，结合多元化策略优化，构建闭环优化体系，显著提升模型的生成质量、安全性和复杂推理能力。
大模型训练阶段的资源消耗：主要集中在预训练阶段，需要数千至上万块GPU并行运算，处理千亿级至万亿级Token数据，耗时数周至数月，占总算力消耗的90–99%。

大模型推理层

大模型推理流程框架：输入文本经分词和嵌入层映射为向量，通过多层Transformer自注意力计算并结合KV缓存提升性能，再在词汇概率输出层生成并通过后处理拼接成完整文本。
推理后处理技术：通过温度采样、Top-k/Top-p裁剪与贪心选择对输出概率分布进行调控，平衡生成多样性、语义连贯性与输出稳定性。
大模型推理核心阶段：分为并行Prefill与增量Decode两阶段，分别依托模型并行与批量吞吐、以及KV缓存与注意力优化，实现高效低延迟的推理流水线。
PD分离技术：将一次性上下文预填充与逐token串行解码解耦，实现GPU算力的精准调度与高效利用，降低响应延迟并提升整体推理吞吐率。

大模型产业基础

基础大模型市场洞察：大模型基础模型层是基础预训练模型与开发平台的有机集合，价值在于通过统一的算力接口与灵活的微调工具，为上层应用提供低成本、高效率的算法支撑。
基础大模型全景图谱：全球大模型产业呈现“技术终局趋同，商业路径分化”的格局，所有厂商均以原生多模态为统一演进目标，但在实现路径上分裂为闭源平台与开源生态两大阵营。
基座大模型调用量规模：公有云大模型调用量正经历爆发式指数增长，市场竞争格局呈现“一超两强”：火山引擎占据近半壁江山，阿里云与百度智能云构成第二梯队。
基础大模型厂商竞争差异化路线：大模型厂商正从同质化竞争转向差异化战略竞争，例如百度的“云智一体”、阿里云的“MaaS”与开源生态、腾讯云的“场景驱动、生态嵌入”、科大讯飞的“行业垂直整合”、火山引擎的“应用反哺技术”和Deepseek的“极致性价比”。
大模型正从追逐顶尖性能向不同场景适配转移：市场关注焦点已从模型性能转向业务场景适配与商业价值，金融、医疗等高价值实时交互场景倾向于采用70B级旗舰模型，文档分析等业务处理层普遍采用7B级精炼模型，边缘设备端则部署1.5B级微型模型。

大模型基础设施层

智算中心基础构成：涵盖供配电、制冷、机柜、布线、防雷、防火等多系统协同，核心在于保障算力设备的高可用性与稳定运行。
GPU芯片功耗增加：新一代GPU芯片功耗显著增加，对智算基础设施提出结构性重构要求，推动数据中心向液冷与高密度部署形态演进。
新服务器功耗增加：AI服务器正向“高精度异构算力+极限带宽互联+超线性能耗密度”演进，重构数据中心的供电、散热与系统架构边界。
智算中心的成本与能耗：智算中心成本结构呈现“重资本、强能耗、轻配套”的非均衡态势，制冷消耗高达27%，成为PUE优化的临界短板。
智算中心商业模式：正从传统基础设施托管向算力、平台、模型与应用全链条服务演进，服务形态高度多元化以匹配不同类型客户需求。
制冷技术PUE发展趋势：数据中心制冷技术正由传统风冷向液冷跃迁，液冷以系统级能效最优和高热密支撑能力，成为满足下一代智算中心PUE控制红线的核心路径。
中国投运/在建/规划智算中心项目区域分布：呈现“东部聚集化与中西部资源导向型”的功能性分工格局，江苏、广东、山东等东部经济强省合计占比超过20%，中西部地区如内蒙古、四川、贵州等亦加速布局。
智算中心参与者分布：项目发起多元化，算力资源集中化，地方政府主导项目占比最高（33.9%），但互联网及云厂商（35.0%）成为核心算力资源的掌控者。
数据中心电力需求：全球智算中心正步入“电力支撑瓶颈期”，中国以2026年285TWh的预测用电量超越欧美，成为全球电力消耗增长主引擎。
全球及中国数据中心平均年PUE：已进入结构瓶颈期，传统节能路径失效，未来能效提升需依赖底层系统架构升级，如液冷系统普及、算热协同调度与电源路径简化。

AIDC全球版图

全球算力及智算建设规模：全球算力建设正从“总量扩张”转向“结构跃迁”，智算能力成为衡量技术竞争力的关键指标，2023年全球智算力规模达875EFLOPS，首次超过基础算力。
中国算力建设现状：2020年至2027年，中国智能算力呈现爆发式增长，预计将从75EFLOPS跃升至1,117EFLOPS，年均复合增速超60%，成为推动整体算力扩张的核心力量。
行业算力需求：算力资源正在由通用计算向智能计算转移，互联网与服务业成为智能算力应用的主要推动力量，其他行业的智能化转型正处于加速阶段。
美国算力建设现状：呈现“多中心、强集聚”的特征，北弗吉尼亚州以5,350MW的规模稳居全球最大数据中心市场，凤凰城、亚特兰大和达拉斯则依托基础设施和地理优势快速崛起。
欧洲算力资源建设现状：呈现出“核心集中、边缘扩张”的特征，英国、荷兰和法国构成数据中心核心集群，英国遥遥领先，占据欧洲市场主导地位。
亚太算力资源建设现状：中国大陆引领区域发展，各国数据中心规模持续扩张，呈现出集中化与多元化并存的格局。
拉美算力资源建设现状：以巴西为核心的区域布局逐步成型，支撑数据中心市场营收持续增长，正迈向高密度、高容量、高投资的新兴战略枢纽。
中东算力资源建设现状：以沙特和阿联酋为核心的国家正推动数据中心由在用向在建快速扩展，主要城市的数据中心容量构成呈现以零售型colo为主、批发型和自建协同发展的多元化格局。

1 •市场关注点从模型性能向业务适配性转移：大模型市场已从早期追求性能与价格的同质化竞争，演变为以业务场景适配为核心的价值驱动阶段。市场关注点不再是模型的绝对能力，而是能否在特定场景以最优性价比创造实际业务价值。这一趋势体现为分层化的应用策略：金融、医疗等高价值实时交互场景倾向于采用70B级旗舰模型以确保决策质量；文档分析等业务处理层普遍采用7B级精炼模型以平衡成本与效率；而在边缘设备端则部署1.5B级微型模型，以满足极致的响应速度要求。•从内卷转向差异化竞争：大模型市场正告别初期追逐技术参数和低价的同质化竞争，全面转向以自身优势为核心的差异化战略新阶段。领先的厂商依托各自核心禀赋，已初步形成差异化路线，例如百度的“云智一体”全栈整合、阿里云的“MaaS”与开源生态、以及火山引擎的应用反哺技术模式，市场竞争的焦点已不再是单一的性能称王。•智算成为核心引擎，中美主导两极格局：全球算力建设正从总量扩张转向结构跃迁，2023年全球智算力规模达到875EFLOPS，首次超过基础算力，成为增长的主导引擎。在区域格局上，全球算力资源正加速向中美两国集中，2023年美国算力占全球41%，中国占31%，合计超过七成。尽管总量居次，但中国的智算力建设进展显著，占全球智能算力总规模的39%，反映出其在资源受限背景下优先发展AI基础设施的国家战略。•功耗激增倒逼制冷技术向液冷革新：新一代AI芯片与服务器的功耗正急剧攀升，单服务器总功耗已突破14kW，给智算中心带来了严峻的电力和散热挑战。这导致全球及中国数据中心的PUE（能源使用效率）优化已进入结构性瓶颈期，传统风冷技术难以支撑高密度算力部署。因此，数据中心制冷技术正加速从传统风冷向液冷跃迁，后者已成为满足下一代智算中心能效控制目标的核心技术路径。摘要—— 研究目的揭示大模型从训练到推理的全生命周期技术范式，包括其资源高度密集的训练方法、追求极致效率的推理优化策略，以及模型厂商在开源与闭源路径下的差异化竞争格局；另一方面，深入探究支撑模型运行的AIDC基础设施，分析核心硬件的功耗演进如何引发数据中心在供电、散热及能效（PUE）等方面的系统性变革与核心挑战。研究区域范围：中国及全球研究对象：AIDC产业链全景本报告的关键问题：1）大模型的训练与推理在技术流程、资源消耗和优化策略上有何本质区别？2）模型层的核心厂商在开源/闭源、MaaS平台等方面采取了哪些差异化竞争战略？3）从全球和中国的算力结构来看，“智算”规模超越“通算”反映了怎样的产业根本性转变？ 2 目录CONTENTS ◆大模型产业模型训练层--------06•大模型训练全流程框架--------07•大模型预训练阶段的方法总览--------08•决定大模型预训练阶段成效的关键工具--------09•预训练阶段的核心价值--------10•后训练阶段流程--------11•后训练阶段流程核心技术汇总--------12•后训练阶段的核心价值--------13•大模型训练阶段的资源消耗--------14◆大模型产业模型推理层--------15•大模型推理阶段流程框架--------16•大模型推理阶段主流参数--------17•大模型推理核心阶段--------18•大模型推理PD分离技术--------19◆大模型产业基础大模型市场洞察--------20•基础大模型全景图谱--------21•基座大模型调用量规模--------22•基础大模型厂商竞争差异化路线初显--------23•大模型正从追逐顶尖性能向不同场景适配转移--------24 目录CONTENTS •阿里云--------25•火山引擎--------26•百度智能云--------27◆大模型产业AI基础设施层深度研究--------28•智算中心基础构成--------29•GPU芯片功耗增加--------30•新服务器功耗增加--------31•成本影响因素分析--------32•智算中心的成本与能耗--------33•商业模式--------34•制冷技术PUE发展趋势--------35•供电系统--------36•中国投运/在建/规划智算中心项目区域分布--------37•智算中心参与者分布--------38•数据中心电力需求--------39•全球及中国数据中心平均年PUE--------40◆AIDC全球版图深度研究--------41•全球算力及智算建设规模--------42•中国算力建设现状--------43•行业算力需求--------46 目录CONTENTS ◆方法论及法律声明--------54 第二章节：大模型训练层主要观点：大模型训练的全流程框架，是一个先通过预训练和监督微调构建模型的基础能力，再通过人类反馈强化学习完成关键价值对齐的系统性工程。大模型预训练阶段的核心方法是通过自回归语言建模学习海量文本的统计规律并引入任务提示以获得对特定任务的完成能力大模型预训练的核心工具包括批量大小精细调控、学习率预热与衰减、AdamW优化以及正则化与梯度裁剪，旨在提高预训练阶段的效率、降低成本、保证稳定并加快收敛与泛化预训练大模型的价值在于利用海量、多样化语料提取深度通用知识与语义表示，从而大幅提升微调效率与模型泛化能力，显著降低算力与开发成本后训练流程包括监督微调、奖励模型训练与PPO强化学习，目的是通过融合人工偏好反馈与强化学习优化生成策略，以提升模型的对话质量、安全性和人类意图对齐度大模型训练阶段消耗的资源主要集中在预训练阶段，需要数千至上万块GPU并行运算、处理千亿级至万亿级Token数据、耗时数周至数月，占总算力消耗的90–99% ©2025 LeadLeo 大模型训练层——大模型训练全流程框架大模型训练的全流程框架，是一个先通过预训练和监督微调构建模型的基础能力，再通过人类反馈强化学习完成关键价值对齐的系统性工程大模型训练全流程框架预训练监督微调奖励反馈模型大模型奖励反馈大模型人工标注奖励反馈提示词大模型产出数据奖励模型强化学习基于人类反馈的强化学习模型微调/精调数据处理学习率预热设置＋大模型的训练流程来源：专家访谈，头豹研究院 7❑大模型的训练始于海量数据处理与预训练，目的是让模型从广泛的文本中学习世界知识与语言规律，从而构建出一个强大的基础模型。随后，模型进入监督微调阶段，通过高质量的人工标注问答数据进行训练，以学会理解并遵循人类的指令，初步成为一个具备对话能力的AI助手。❑为使模型行为更安全并符合人类价值观，需要进行基于人类反馈的强化学习。该过程会先利用人工排序的模型回答，训练出一个能评估回答优劣的奖励模型。接着，这个奖励模型将作为“裁判”在强化学习中持续优化主模型，引导其产出更符合人类偏好的内容。经过这一系列精细的对齐，最终得到一个兼具强大能力与可靠价值观的最终模型。人类价值对齐后的预训练模型模型产出大模型训练层——大模型预训练阶段的方法总览大模型预训练阶段的核心方法是通过自回归语言建模学习海量文本的统计规律并引入任务提示以获得对特定任务的完成能力大模型预训练阶段的方法总览➢大模型预训练的本质是通过上文的词来预测下一个词，属于无监督的预训练。比如，给定一个无监督的语料：U={u1,…,un}➢而预训练是要将这一方程最大化：L(U)=i∑logp(ui∣ui−k,…,ui−1;Θ)T1T2TnTrmTrmTrmTrmE1E2EnTrmTrm…………AR模型➢在大语言模型的预训练阶段，也会引入情境学习（In-context Learning）的训练范式。为增强模型对任务指令的泛化理解能力，训练数据会被构建为特定格式：➢输入序列通常包含一项任务描述，并附带若干上下文范例。例如，向模型输入：“请将中文翻译成英文。你好，Hello，再见，goodbye，销售，”，并训练其准确预测后续的正确文本“sell”。Few-shotlearningOne-shotlearningZero-shotlearning允许输入数条示例和一则任务说明只允许输入一条示例和一则任务说明不允许输入任何范例，只允许输入➢通过引入in-context learning技术，使得预训练的大语言模型直接拥有完成特定任务的能力来源：专家访谈，头豹研究院 8❑预训练阶段模型通过自回归语言建模从海量文本中学习统计规律。模型将每个词映射为连续向量，经过多层Transformer自注意力模块，依次预测下一个词，训练时最大化所有位置的预测准确度，使模型既能捕捉短期词汇搭配，也能掌握长程语义结构，为各类下游任务提供通用且强大的表征。❑为了让模型在推理时无需额外微调即可完成新任务，预训练数据采用“任务说明＋示例”格式化输入。输入多条示例加说明可实现少样本学习；输入单条示例加说明可实现单样本学习；仅输入任务说明可实现零样本学习。通过这种方式，模型学会根据提示在翻译、问答、分类等多种场景中直接给出准确结果。一则任务说明大模型训练层——决定大模型预训练阶段成效的关键工具大模型预训练的核心工具包括批量大小精细调控、学习率预热与衰减、AdamW优化以及正则化与梯度裁剪，旨在提高预训练阶段的效率、降低成本、保证稳定并加快收敛与泛化决定大模型预训练阶段成效的关键技术维度➢对于语言模型的预训练，通常将批量训练的大小（batch_size）设置为较大的数字来维持训练的稳定性。➢GPT-3在1750亿参数的最大发电版中，将全局批量大小从最初的32K线性扩增至3.2M，以提升数据并行效率和训练稳定性。批量训练的大小设置➢AdamW作为预训练的主流优化器，通过将权重衰减从梯度更新中解耦，实现了更稳定的正则化。其常用超参数为β₁=0.9、β₂=0.95、ϵ=1e⁻⁸，配合权重衰减λ=0.1，可在数万亿Token的训练中保持梯度和参数更新的平衡。➢在SlimPajama-627B数据集的验证中，研究团队发现引入λ=0.1和ϵ=1e⁻⁸后，FP16训练的数值稳定性显著提升，否则易出现NaN或梯度爆炸优化器选择➢预训练阶段通常以线性方式在前0.2%~1%的步数内将学习率从零预热至峰值，然后采用余弦衰减或线性降温，将学习率降至峰值的10%左右，以兼顾初期大步长收敛和后期微调精度。➢“减少预热”实验中的不稳定更新和大幅损失突变明显增多，而正常预热则能显著提升最终模型的鲁棒性和收敛速度。1234➢全局梯度范数裁剪（clip_norm=1.0）可有效抑制偶发的梯度爆炸，而权重衰减（weight_decay=0.1）为模型提供持续的正则化，两者是大规模预训练不可或缺的稳定手段。➢当出现突发性损失飙升时，训练流程常会回滚至最近的Checkpoint并跳过对应批次，以避免单点异常导致的整轮作业失败，保障长时间作业的连续性与鲁棒性。正则化与梯度裁剪来源：专家访谈，头豹研究院 9❑在大规模语言模型的预训练中，合理设置批量训练大小、精心设计学习率预热与衰减策略、选用经过验证的优化器（如AdamW）并配合恰当的正则化与梯度裁剪，是确保训练稳定性、收敛速度与最终模型性能的基石。❑在此基础上，各大技术团队还广泛应用混合精度训练、激活检查点、流水线并行与张量并行架构、课程学习策略以及多样化预训练目标，诸如SpanBERT、BART和XLNet等，这些辅助技术旨在进一步降低计算开销、缩短训练周期并增强模型在大规模语料上的泛化能力。学习率策略大模型训练层——预训练阶段的核心价值预训练大模型的价值在于利用海量、多样化语料提取深度通用知识与语义表示，从而大幅提升微调效率与模型泛化能力，显著降低算力与开发成本大模型预训练阶段的核心价值预训练阶段的核心价值➢通过在多样化语料上

点击免费查看完整报告