您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[金元证券]:AI应用侧深度渗透,驱动国产先进封装技术寻求突破 - 发现报告

AI应用侧深度渗透,驱动国产先进封装技术寻求突破

2025-02-27唐仁杰金元证券L***
AI智能总结
查看更多
AI应用侧深度渗透,驱动国产先进封装技术寻求突破

AI应用侧深度渗透,驱动国产先进封装技术寻求突破 评级:增持(首次) 2025年2月27日 ⚫DeepSeek在算法层面实现三大突破——通过低秩键值压缩(MLA)将注意力计算内存占用降低80%,动态稀疏MoE架构使每个Token仅激活5.5%参数,以及GRPO强化学习框架驱动模型自主进化多步推理能力。千亿参数模型在通用任务上达到与密集模型相当的精度,同时降低37%推理延迟。模型的高效运行仍依赖硬件层面的三重能力支撑:高并行计算、高存储带宽、超低延迟互连。 ⚫效率提升≠需求下降:本质上,算法优化并非削弱算力产业价值,而是通过重构需求结构打开更大市场空间——从集中式训练向分布式推理延展,从通用计算向场景专用架构升级,最终形成万亿级算力市场的多级增长引擎。"降本→普及→增量"的螺旋上升效应将推动Post-training微调算力激增、云端推理并发量指数增长、边缘侧长尾需求爆发带来总算力需求。 证券分析师:唐仁杰执业证书编号:S0370524080002公司邮箱:tangrj@jyzq.cn联系电话:0755-83025184 ⚫模型参数量、训练数据持续扩充,高性能算力芯需求仍高:单纯倚仗传统芯片设计与制造通过缩小FET尺寸去提高芯片性能的方式效率降低,且规模化边际减弱。更重要的是,对于不同场景化需求不同,高带宽,低延迟,高能效比有更高要求,系统级线宽/线距瓶颈限制了高速数据在芯片之间、芯片与外部存储器之间高效传输,严重制约了AI芯片性能的充分释放。先进封装是“More Than Moore”(超越摩尔)时代的解决方案。 ⚫封装技术正逐步从PCB的层面,向芯片内部(即IC层面)转变:采用2.5D和3D封装技术,不再依赖传统的PCB作为主连接平台,而是直接将多个IC芯片通过转接板(interposer,如硅转接板、玻璃转接板等)进行集成。2.5D封装技术的核心在于TSV、Interposer、RDL、Bumps,各大厂商基于这些组装以达到不同客户需求。据YOLE预测,2023年全球先进封装营收约378亿美元,占半导体封装市场的44%;2024年增长至425亿美元,至2029年,先进封装营收有望增长至695亿美元,年复合增长率11%,其中2.5D/3D封装渗透率最快。 ⚫投资建议:关注2.5D/3D封装技术核心前道设备厂商、基板材料及OSAT厂商。 ◼设备厂商:北方华创、拓荆科技、盛美上海、中微公司 ◼基板材料厂商:兴森科技 ◼OSAT厂:长电科技、通富微电 ⚫风险提示:1、2.5D\3D封装及其他先进封装难度较大,良率有待改善,或影响利润;2、前期设备投入及研发成本较高;3、AI应用落地速度不及预期 一、DeepSeek架构上的突破-算法层面解决算力效率问题 DeepSeek从模型的输入处理阶段到计算阶段再到模型的输出阶段进行深层次优化,显著提升算力效率,使得其在训练阶段以及推理阶段在保持模型性能的同时,减少冗余计算,从而塑造出更高性价比模型。 传统Transformer模型的自注意力机制存在显著的计算瓶颈:处理n长度序列时需构建n²规模的注意力矩阵,导致内存和计算复杂度均呈𝑂(𝑛2)增长。以1024长度序列为例,单头注意力矩阵即需4MB存储,叠加多头多层结构后硬件资源极易耗尽。在推理场景中,由于需实时逐Token生成文本,重复计算历史Token的键值数据会引发指数级资源消耗。 DeepSeek通过引入KV缓存机制实现突破性优化:将历史Token的键值向量存储复用,仅计算新Token的查询向量进行匹配。该策略使推理阶段复杂度从𝑂(𝑛2)降至𝑂(𝑛),大幅减少冗余计算。KV缓存快速存取,以及更强的并行计算能力处理动态增长的序列数据,仍对高性能算力芯片吞吐量有一定要求。 DeepSeek V2通过Multi-Head Latent Attention(MLA)技术突破现有注意力机制瓶颈:传统多头注意力(MHA)需存储完整键值矩阵,导致KV缓存空间随序列长度线性膨胀。主流改进方案如MQA(多查询注意力)和GQA(分组查询注意力)虽能降低缓存需求,但存在显著性能损失——MQA缓存需求最小但精度最弱,GQA则在缓存与性能间折中。 MLA创新性地引入低秩键值联合压缩:将原始高维键值矩阵映射至低秩潜在空间,仅需存储压缩后的潜在向量。该方法使KV缓存空间较MHA减少90%以上(对标GQA水平),同时保持与MHA相当的性能表现。 数据来源:DeepSeek V2 tech report,金元证券研究所 DeepSeek-V3的混合专家(MoE)架构实现超大规模高效计算相较于传统Dense模型(如Llama3),DeepSeek-V3作为6710亿参数的MoE模型,通过动态稀疏计算突破算力瓶颈:每个Token仅激活约5.5%参数(37B/671B),在保持模型规模优势的同时显著降低计算负载: ⚫动态路由机制:通过门控网络为每个Token选择1-2个专家(小型前馈神经网络),替代传统Transformer中全参数参与的固定计算模式。 ⚫稀疏计算流:仅被选中的专家执行正向传播,其余90%以上参数处于静默状态。通过细粒度专家+共享专家的组合替换粗粒度的专家,形成更高细粒度的专家池。 训练效率方面: ⚫正向传播:单步计算量较Dense模型减少40%-60%(与专家选择数量强相关)⚫反向传播:梯度更新仅作用于被激活的专家及路由网络,参数更新量减少至全量模型的10%以下 推理效率方面: ⚫算力需求解耦:推理延迟与激活参数量(而非总参数量)正相关,长文本处理效率提升3-5倍⚫硬件友好性:稀疏计算模式更适配支持动态路由的AI加速芯片 架构使模型在同等算力预算下,可扩展至10倍于Dense模型的参数量,为"规模决定性能"的大模型发展提供可持续路径。 请务必仔细阅读本报告最后部分的免责声明曙光在前金元在先传统MoE模型通过引入辅助损失函数强制均衡专家负载,但策略因忽视数据分布特性,导致同类任务被分散路由至不同专家,引发领域知识割裂与参数冗余两大问题。DeepSeek V3创新性提出无辅助损失负载均衡策略,在门控网络中嵌入可学习偏置项,动态感知专家负载状态并自动调节路由偏好:过载专家通过偏置负向修正降低激活概率,使模型在训练过程中自主收敛至负载均衡 与知识聚合的平衡态。通过共享专家(每层强制全局激活)与256个路由专家的协同设计,模型在Token级别动态筛选8个候选专家并最终路由至≤4个高置信节点,实现通用能力集中化(共享专家承载跨领域知识)与专业能力垂直化(路由专家专注细分任务)的解耦优化。 训练阶段容忍10:1的专家激活频率差异,通用任务精度损失<0.5%的同时提升垂直任务性能12-15%;推理阶段通过共享专家固定激活与动态路由的混合计算流,单步计算量较传统MoE减少37%,显存占用下降28%。技术突破对算力芯片提出新需求,即需支持偏置项实时更新(微秒级动态路由决策)与专家权重异构存储(共享专家高频访问数据独立缓存) 数据来源:DeepSeek V3,金元证券研究所 二、DeepSeek-R1:打造更强大推理能力 DeepSeek-R1系列包含基础模型R1-Zero及其蒸馏变体,突破性地通过纯强化学习(RL)路径实现大语言模型高阶推理能力,颠覆"监督微调(SFT)为推理能力必要前提"的传统认知。其核心创新在于群体相对策略优化(GRPO)算法,相较主流近端策略优化(PPO)实现三大技术跃迁: 1、算法架构重构 ⚫去价值模型依赖:GRPO摒弃PPO中独立的价值模型(ValueModel),通过组内相对优势计算替代绝对基线预测,消除策略-价值模型协同训练的开销 ⚫动态组评分机制:对同批次生成结果进行组内排序,基于相对奖励积分(如Top 20%答案自动获得优势权重)驱动策略更新,避免PPO中广义优势估计(GAE)的复杂计算 2、计算效率突破 ⚫训练成本对比:在同等7B参数规模下,GRPO较PPO减少32%显存占用,单步训练耗时下降41% ⚫收敛效率提升:在代码生成任务(HumanEval基准)中,GRPO达成80%最终性能的迭代轮次仅为PPO的1/3 3、推理能力强化路径: ⚫推理(Reasoning)与推断(Inference)解耦: ◼推理能力:通过GRPO的组内对抗机制,强制模型学习逻辑链拆解与多步决策优化(如数学证明题解决路径规划) ◼推断能力:保留基础Transformer架构的并行计算特性,确保Token生成速度与标准模型对齐 数据来源:DeepSeek Math,金元证券研究所 在GSM8K数学推理数据集上,R1-Zero未经过SFT直接通过GRPO训练,准确率达82.3%,超越同规模SFT+PPO方案(78.1%) DeepSeek-R1-Zero通过群体相对策略优化(GRPO)算法,在纯强化学习框架下实现了大语言模型推理能力的自主进化,其核心突 破在于无需监督微调(SFT)即可完成高阶逻辑思维的涌现。训练过程中,模型展现出显著的非线性能力跃迁:初期阶段(0-30%训练周期)的思考链长度局限在50-100 Token,仅能处理简单推理任务(如基础算术),但在引入GRPO的组内相对优势机制后,模型自发扩展多步推理能力,复杂数学证明任务的思考链长度提升至2000+ Token,且伴随策略梯度突变现象(训练损失曲率变化超40%),驱动AIME-2024评测的pass@1准确率从15.6%跃升至71.0%,达到与SFT+RLHF混合训练方案相当的水平。 这一过程依赖于GRPO构建的自监督探索-评估闭环——模型通过批量生成候选答案并动态对比组内奖励积分,自主优化推理路径规划策略,例如在33%训练周期后出现关键转折点:错误答案的路径回溯率提升62%,高难度任务的计算资源占比从15%增至58%,实现类似人类"顿悟"(Aha Moment)的策略优化效果。 GRPO通过去价值模型依赖与动态组评分两大革新,将传统PPO算法的单步优势计算转化为批量相对评估,使训练效率提升。同时激 活 硬 件 层 面 的 新 型 需 求 :需 支 持 动 态 计 算 图 (DynamicComputationGraph)以加速可变长度思考链(128-4096 Token弹性伸缩)、稀疏激活内存管理(95%未激活路径仅保留元数据)以及批内并行比较单元(如英伟达H100的Transformer Engine 指令集优化)。 三、效率提升≠需求下降 DeepSeek在算法层面的突破显著降低了训练阶段的算力门槛——根据官方披露,R1模型仅使用2048块NVIDIA H800 GPU(算力成本约558万美元)即完成14.8万亿Token训练,较同类千亿参数模型的典型配置(通常需5000+GPU)减少60%硬件投入。这一效率提升主要源于动态稀疏计算架构(单Token激活5.5%参数)与低 秩压缩技术(KV缓存减少90%)的协同作用。 然而,算法效率的提升正在加速AI应用的规模化落地,进而催生总算力需求,"降本→普及→增量"的螺旋上升效应爆发: ⚫Post-training微调算力激增:Post-training阶段的海量微调(如企业日均执行数万次任务)会持续消耗可观算力,高效微调技术(如LoRA)虽将单任务能耗压至预训练的1%-5%,但规模化部署下的总量仍对算力基础设施提出高并发、低延迟需求。 ⚫云端推理并发量指数增长:AIGC应用推动云端推理QPS(每秒查询量)持续攀升,用户要求响应延迟<100ms,驱动高带宽存储与低延迟互连成为刚需。 ⚫边缘侧长尾需求爆发:通过模型蒸馏技术,DeepSeek R1能够很容易部署至本地并进行微调,尽管单设备算力需求不敌云端,但总量需求仍大。 本质上,算法优化并非削弱算力产业价值,而是通过重构需求结构打开更大市场空间——从集中式训练向分布式推理延展,从通用计算向场景专用架构升级,最终形成万亿级算力市场的多级增长引擎。 四、模型参数量、训