1 •市场关注点从模型性能向业务适配性转移:大模型市场已从早期追求性能与价格的同质化竞争,演变为以业务场景适配为核心的价值驱动阶段。市场关注点不再是模型的绝对能力,而是能否在特定场景以最优性价比创造实际业务价值。这一趋势体现为分层化的应用策略:金融、医疗等高价值实时交互场景倾向于采用70B级旗舰模型以确保决策质量;文档分析等业务处理层普遍采用7B级精炼模型以平衡成本与效率;而在边缘设备端则部署1.5B级微型模型,以满足极致的响应速度要求。•从内卷转向差异化竞争:大模型市场正告别初期追逐技术参数和低价的同质化竞争,全面转向以自身优势为核心的差异化战略新阶段。领先的厂商依托各自核心禀赋,已初步形成差异化路线,例如百度的“云智一体”全栈整合、阿里云的“MaaS”与开源生态、以及火山引擎的应用反哺技术模式,市场竞争的焦点已不再是单一的性能称王。•智算成为核心引擎,中美主导两极格局:全球算力建设正从总量扩张转向结构跃迁,2023年全球智算力规模达到875EFLOPS,首次超过基础算力,成为增长的主导引擎。在区域格局上,全球算力资源正加速向中美两国集中,2023年美国算力占全球41%,中国占31%,合计超过七成。尽管总量居次,但中国的智算力建设进展显著,占全球智能算力总规模的39%,反映出其在资源受限背景下优先发展AI基础设施的国家战略。•功耗激增倒逼制冷技术向液冷革新:新一代AI芯片与服务器的功耗正急剧攀升,单服务器总功耗已突破14kW,给智算中心带来了严峻的电力和散热挑战。这导致全球及中国数据中心的PUE(能源使用效率)优化已进入结构性瓶颈期,传统风冷技术难以支撑高密度算力部署。因此,数据中心制冷技术正加速从传统风冷向液冷跃迁,后者已成为满足下一代智算中心能效控制目标的核心技术路径。摘要—— 研究目的揭示大模型从训练到推理的全生命周期技术范式,包括其资源高度密集的训练方法、追求极致效率的推理优化策略,以及模型厂商在开源与闭源路径下的差异化竞争格局;另一方面,深入探究支撑模型运行的AIDC基础设施,分析核心硬件的功耗演进如何引发数据中心在供电、散热及能效(PUE)等方面的系统性变革与核心挑战。研究区域范围:中国及全球研究对象:AIDC产业链全景本报告的关键问题:1)大模型的训练与推理在技术流程、资源消耗和优化策略上有何本质区别?2)模型层的核心厂商在开源/闭源、MaaS平台等方面采取了哪些差异化竞争战略?3)从全球和中国的算力结构来看,“智算”规模超越“通算”反映了怎样的产业根本性转变? 2 目录CONTENTS ◆大模型产业模型训练层--------06•大模型训练全流程框架--------07•大模型预训练阶段的方法总览--------08•决定大模型预训练阶段成效的关键工具--------09•预训练阶段的核心价值--------10•后训练阶段流程--------11•后训练阶段流程核心技术汇总--------12•后训练阶段的核心价值--------13•大模型训练阶段的资源消耗--------14◆大模型产业模型推理层--------15•大模型推理阶段流程框架--------16•大模型推理阶段主流参数--------17•大模型推理核心阶段--------18•大模型推理PD分离技术--------19◆大模型产业基础大模型市场洞察--------20•基础大模型全景图谱--------21•基座大模型调用量规模--------22•基础大模型厂商竞争差异化路线初显--------23•大模型正从追逐顶尖性能向不同场景适配转移--------24 目录CONTENTS •阿里云--------25•火山引擎--------26•百度智能云--------27◆大模型产业AI基础设施层深度研究--------28•智算中心基础构成--------29•GPU芯片功耗增加--------30•新服务器功耗增加--------31•成本影响因素分析--------32•智算中心的成本与能耗--------33•商业模式--------34•制冷技术PUE发展趋势--------35•供电系统--------36•中国投运/在建/规划智算中心项目区域分布--------37•智算中心参与者分布--------38•数据中心电力需求--------39•全球及中国数据中心平均年PUE--------40◆AIDC全球版图深度研究--------41•全球算力及智算建设规模--------42•中国算力建设现状--------43•行业算力需求--------46 目录CONTENTS ◆方法论及法律声明--------54 第二章节:大模型训练层主要观点:大模型训练的全流程框架,是一个先通过预训练和监督微调构建模型的基础能力,再通过人类反馈强化学习完成关键价值对齐的系统性工程。大模型预训练阶段的核心方法是通过自回归语言建模学习海量文本的统计规律并引入任务提示以获得对特定任务的完成能力大模型预训练的核心工具包括批量大小精细调控、学习率预热与衰减、AdamW优化以及正则化与梯度裁剪,旨在提高预训练阶段的效率、降低成本、保证稳定并加快收敛与泛化预训练大模型的价值在于利用海量、多样化语料提取深度通用知识与语义表示,从而大幅提升微调效率与模型泛化能力,显著降低算力与开发成本后训练流程包括监督微调、奖励模型训练与PPO强化学习,目的是通过融合人工偏好反馈与强化学习优化生成策略,以提升模型的对话质量、安全性和人类意图对齐度大模型训练阶段消耗的资源主要集中在预训练阶段,需要数千至上万块GPU并行运算、处理千亿级至万亿级Token数据、耗时数周至数月,占总算力消耗的90–99% ©2025 LeadLeo 大模型训练层——大模型训练全流程框架大模型训练的全流程框架,是一个先通过预训练和监督微调构建模型的基础能力,再通过人类反馈强化学习完成关键价值对齐的系统性工程大模型训练全流程框架预训练监督微调奖励反馈模型大模型奖励反馈大模型人工标注奖励反馈提示词大模型产出数据奖励模型强化学习基于人类反馈的强化学习模型微调/精调数据处理学习率预热设置+大模型的训练流程来源:专家访谈,头豹研究院 7❑大模型的训练始于海量数据处理与预训练,目的是让模型从广泛的文本中学习世界知识与语言规律,从而构建出一个强大的基础模型。随后,模型进入监督微调阶段,通过高质量的人工标注问答数据进行训练,以学会理解并遵循人类的指令,初步成为一个具备对话能力的AI助手。❑为使模型行为更安全并符合人类价值观,需要进行基于人类反馈的强化学习。该过程会先利用人工排序的模型回答,训练出一个能评估回答优劣的奖励模型。接着,这个奖励模型将作为“裁判”在强化学习中持续优化主模型,引导其产出更符合人类偏好的内容。经过这一系列精细的对齐,最终得到一个兼具强大能力与可靠价值观的最终模型。人类价值对齐后的预训练模型模型产出 大模型训练层——大模型预训练阶段的方法总览大模型预训练阶段的核心方法是通过自回归语言建模学习海量文本的统计规律并引入任务提示以获得对特定任务的完成能力大模型预训练阶段的方法总览➢大模型预训练的本质是通过上文的词来预测下一个词,属于无监督的预训练。比如,给定一个无监督的语料:U={u1,…,un}➢而预训练是要将这一方程最大化:L(U)=i∑logp(ui∣ui−k,…,ui−1;Θ)T1T2TnTrmTrmTrmTrmE1E2EnTrmTrm…………AR模型➢在大语言模型的预训练阶段,也会引入情境学习(In-context Learning)的训练范式。为增强模型对任务指令的泛化理解能力,训练数据会被构建为特定格式:➢输入序列通常包含一项任务描述,并附带若干上下文范例。例如,向模型输入:“请将中文翻译成英文。你好,Hello,再见,goodbye,销售,”,并训练其准确预测后续的正确文本“sell”。Few-shotlearningOne-shotlearningZero-shotlearning允许输入数条示例和一则任务说明只允许输入一条示例和一则任务说明不允许输入任何范例,只允许输入➢通过引入in-context learning技术,使得预训练的大语言模型直接拥有完成特定任务的能力来源:专家访谈,头豹研究院 8❑预训练阶段模型通过自回归语言建模从海量文本中学习统计规律。模型将每个词映射为连续向量,经过 多 层Transformer自 注 意力模块,依次预测下一个词,训练时最大化所有位置的预测准确度,使模型既能捕捉短期词汇搭配,也能掌握长程语义结构,为各类下游任务提供通用且强大的表征。❑为了让模型在推理时无需额外微调即可完成新任务,预训练数据采用“任务说明+示例”格式化输入。输入多条示例加说明可实现少样本学习;输入单条示例加说明可实现单样本学习;仅输入任务说明可实现零样本学习。通过这种方式,模型学会根据提示在翻译、问答、分类等多种场景中直接给出准确结果。一则任务说明 大模型训练层——决定大模型预训练阶段成效的关键工具大模型预训练的核心工具包括批量大小精细调控、学习率预热与衰减、AdamW优化以及正则化与梯度裁剪,旨在提高预训练阶段的效率、降低成本、保证稳定并加快收敛与泛化决定大模型预训练阶段成效的关键技术维度➢对于语言模型的预训练,通常将批量训练的大小(batch_size)设置为较大的数字来维持训练的稳定性。➢GPT-3在1750亿参数的最大发电版中,将全局批量大小从最初的32K线性扩增至3.2M,以提升数据并行效率和训练稳定性。批量训练的大小设置➢AdamW作为预训练的主流优化器,通过将权重衰减从梯度更新中解耦,实现了更稳定的正则化。其常用超参数为β₁=0.9、β₂=0.95、ϵ=1e⁻⁸,配合权重衰减λ=0.1,可在数万亿Token的训练中保持梯度和参数更新的平衡。➢在SlimPajama-627B数据集的验证中,研究团队发现引入λ=0.1和ϵ=1e⁻⁸后,FP16训练的数值稳定性显著提升,否则易出现NaN或梯度爆炸优化器选择➢预训练阶段通常以线性方式在前0.2%~1%的步数内将学习率从零预热至峰值,然后采用余弦衰减或线性降温,将学习率降至峰值的10%左右,以兼顾初期大步长收敛和后期微调精度。➢“减少预热”实验中的不稳定更新和大幅损失突变明显增多,而正常预热则能显著提升最终模型的鲁棒性和收敛速度。1234➢全局梯度范数裁剪(clip_norm=1.0)可有效抑制偶发的梯度爆炸,而权重衰减(weight_decay=0.1)为模型提供持续的正则化,两者是大规模预训练不可或缺的稳定手段。➢当出现突发性损失飙升时,训练流程常会回滚至最近的Checkpoint并跳过对应批次,以避免单点异常导致的整轮作业失败,保障长时间作业的连续性与鲁棒性。正则化与梯度裁剪来源:专家访谈,头豹研究院 9❑在 大 规 模 语 言 模 型 的预 训 练 中,合 理 设 置批 量 训 练 大 小、精 心设 计 学 习 率 预 热 与 衰减 策 略、选 用 经 过 验证 的 优 化 器(如AdamW)并配合恰当的 正 则 化 与 梯 度 裁 剪,是 确 保 训 练 稳 定 性、收 敛 速 度 与 最 终 模 型性能的基石。❑在 此 基 础 上,各 大 技术 团 队 还 广 泛 应 用 混合 精 度 训 练、激 活 检查 点、流 水 线 并 行 与张 量 并 行 架 构、课 程学 习 策 略 以 及 多 样 化预 训 练 目 标,诸 如SpanBERT、BART和XLNet等,这些辅助技术 旨 在 进 一 步 降 低 计算 开 销、缩 短 训 练 周期 并 增 强 模 型 在 大 规模 语 料 上 的 泛 化 能 力。学习率策略 大模型训练层——预训练阶段的核心价值预训练大模型的价值在于利用海量、多样化语料提取深度通用知识与语义表示,从而大幅提升微调效率与模型泛化能力,显著降低算力与开发成本大模型预训练阶段的核心价值预训练阶段的核心价值➢通过在多样化语料上