行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

DeepSeek对国产芯片的影响

信息技术 2025-04-28 - 科智咨询周振

DeepSeek技术创新

架构创新：
- Multi-Head Latent Attention (MLA)：通过低秩联合压缩减少注意力键和值的缓存，提高推理效率。
- 无辅助损失负载平衡的DeepSeekMoE：通过动态调整专家偏差控制负载平衡，减少对模型性能的负面影响。
软硬协同工程优化：
- 多token预测（MTP）：将单token生成转变为多token生成，提升训练和推理性能。
- FP8混合精度训练框架：核心计算核以FP8精度实现，部分模块维持BF16或FP32精度。
- 计算-通信重叠（DualPipe调度策略）：通过重叠计算和通信，减少流水线气泡，提升训练效率。
- PTX手动优化跨芯片通信：借助PTX手动调整跨芯片通信效率，提升训练效能。

DeepSeek对国产芯片的影响

市场影响：
- 算力总需求持续增长：2024-2028年，中国智能算力规模保持近40%的高速增长。
- 推理侧需求爆发：至2027年，推理侧需求占比将从65%增长至72%。
- 开源生态打开国产算力需求空间：DeepSeek采用MIT协议，吸引众多开发者和企业参与，促进国产芯片适配落地和软件生态繁荣。
技术突破：
- 降低算力依赖，激活国产芯片潜力：MLA、MOE等技术优化模型训练效率，同等效果下训练成本仅为海外领先模型的1/10。
- 模型轻量化降低算力门槛：DeepSeek模型在国产芯片上实现高性能推理，如天数、沐曦等厂商快速完成模型适配。
- DeepSeek模型训练成本极低：V3模型仅用2048块H800 GPU训练2个月，成本仅为557.6万美元，远低于同等性能的海外模型。
关键技术突破进度：
- FP8混合精度运算：目前仅少数初创企业支持，大型芯片企业需从底层做出大量改动。
- PTX指令集优化：大型客户使用国产芯片需开放PTX和Mira指令，对国产芯片厂商挑战较大。
- PD分离：国产厂商支持效果一般。
- MTP（Multi-Token Prediction）：多款国产芯片已支持，性能可提升50%以上。
- DualPipe算法：实现难度相对小，但只适用于DeepSeek模型。
产业链协同：
- 构建自主AI生态闭环：促进国产芯片硬件适配落地和软件生态繁荣。
- 推动ASIC技术实质性发展：形成模型-芯片-系统的全国产闭环，ASIC逐步取代通用器件。

国产芯片面临的挑战和发展机遇

挑战：
- CUDA生态壁垒：英伟达CUDA生态开发者基数是国产方案的6.5倍，国产AI生态需从多个角度努力补功课。
- 技术壁垒：受限于光刻机等限制，7nm以下制程工艺迟迟无法突破，国产芯片良品率有待提升。
发展机遇：
- 细分场景优势：国产AI芯片在工业质检、智能安防等细分场景表现优异，国产化率较高。
- 智能家居、消费电子等领域：国产AI芯片在智能家居、消费电子等领域应用广泛，国产化率逐步提升。
- 数据中心、金融等领域：国产AI芯片在数据中心、金融等领域仍有较大提升空间。

科智咨询云网研究事业部苏长飞 2025年4月目录 01DeepSeek技术创新 02DeepSeek对国产芯片的影响 03 DeepSeek的出现标志着我国在生成式AI领域达到世界领先级别架构创新 •无辅助损失负载平衡的DeepSeekMoE DeepSeek-V3提出了一种无辅助损失的负载均衡策略（Loss-FreeBalancing），通过动态调整每个专家的偏差来控制负载平衡，而不引入干扰梯度。减少因鼓励负载均衡而对模型性能产生的负面影响。 •Multi-Head Latent Attention (MLA) MLA的核心在于通过低秩联合压缩来减少注意力键（keys）和值（values）在推理过程中的缓存，从而提高推理效率软硬协同工程优化1/2 •多token预测（Multi-Token Prediction, MTP）主流大模型token-by-token生成序列，而每次token生成需要频繁与访存交互，从而因为访存效率形成训练或推理的瓶颈。MTP方法主要将单token的生成，转变成多token的生成，提升训练和推理的性能。DeepSeek主要对传统MTP算法进行了一定优化，顺序预测额外token，并在每个预测深度保持完整的因果链。 •FP8混合精度训练框架 在DeepSeek的训练过程中，绝大多数核心计算核（即通用矩阵乘法GEMM操作）均以FP8精度实现。这些GEMM操作接受FP8张量作为输入，并输出BF16或FP32格式的结果。如下图所示，与线性算子（Linear operator）相关的三个GEMM运算——前向传播（Fprop）、激活梯度反向传播（Dgrad）和权重梯度反向传播（Wgrad）——都采用FP8精度执行。对以下模块维持原有精度（如BF16或FP32）：嵌入模块（embedding module ）、输出头（output head）、混合专家门控模块（MoE gating modules）、标准化算子（normalization operators）以及注意力算子（attention operators）。（尽管FP8格式具有计算效率优势，但由于部分算子对低精度计算较为敏感，仍需保持更高计算精度）软硬协同工程优化2/2 •计算-通信重叠(DualPipe调度策略) DeepSeek-V3设计了DualPipe算法，用于高效的流水线并行计算。该算法通过重叠计算和通信，减少了流水线气泡，并在跨节点的专家并行训练中实现了近乎完全的计算-通信重叠，显著提升了训练效率。 •通过PTX手动优化跨芯片通信 英伟达H800芯片互联带宽相比H100被阉割，为弥补这一缺陷，DeepSeek借助PTX手动优化跨芯片通信，保障数据传输效率。PTX是CUDA编译的中间代码，处于高级编程语言（如CUDA C/C++）和底层机器码（SASS）之间，起到在CUDA和最终机器码之间的桥梁作用。借助PTX，开发者能够直接对GPU的寄存器分配、线程调度等硬件级操作进行控制，实现细粒度的性能优化。在多GPU协同训练场景中，可通过PTX手动调整跨芯片通信效率，提升整体训练效能。目录 01DeepSeek技术创新 02 DeepSeek对国产芯片的影响 03 开源生态打开国产算力需求空间刺激算力总需求持续增长 •算力总需求持续增长：根据科智咨询发布的中国智能算力市场规模研究报告，2024-2028年，中国智能算力规模仍将保持近40%的高速增长 •推理侧需求爆发：推理侧需求占比将爆发式增长，至2027年将从目前的65%增长至72% •“杰文斯悖论”指出，技术进步导致资源使用效率的提高，反而可能增加资源的总体消费量。 •在图中，燃料成本下降20%（从100美元到80美元），旅行量增加了40%（从10单位到14单位）数据来源：科智咨询、公开信息降低算力依赖，激活国产芯片潜力算法创新驱动算力效率提升：通过MLA、MOE、无辅助损失负载均衡等技术，显著优化模型训练效率，在同等模型效果的基础上，训练成本仅为海外领先模型成本的1/10 模型轻量化降低算力门槛：通过轻量化模型和知识蒸馏技术，DeepSeek能够在国产芯片上实现高性能推理。例如，天数、沐曦等众多国产厂商在极短的时间内完成模型适配 DeepSeek-V3和R1模型不仅性能出色，训练成本也极低。V3模型仅用2048块H800 GPU训练2个月，消耗278.8万GPU小时。相比之下，Llama3-405B消耗了3080万GPU小时，是V3的11倍。按H800 GPU每小时2美金计算，V3的训练成本仅为557.6万美金，而同等性能的模型通常需要0.6-1亿美金。R1模型在V3基础上，通过引入大规模强化学习和多阶段训练，进一步提升了推理能力，成本可能更低。产业链协同构建自主AI生态闭环：促进国产芯片硬件的适配落地和软件生态的繁荣繁荣国产软件生态芯片厂商加速适配与落地 •DeepSeek采用宽松的MIT协议和强可复现性，得到广泛的应用•DeepSeek的开源策略吸引众多开发者和企业的参与。国产算力芯片厂商可以围绕DeepSeek建立相关的软件生态，开发适配的驱动程序、开发工具、优化库等，吸引更多开发者基于国产芯片和DeepSeek进行应用开发，丰富软件生态资源，提升国产算力芯片的易用性和竞争力产业链协同构建自主AI生态闭环：推动ASIC技术实质性发展，形成模型-芯片-系统的全国产闭环推动ASIC的芯片技术路线发展 DeepSeek的算法优化创新，带动模型成本急速降低，软硬件协同成为下一步发展的关键，未来ASIC将成为行业主导，逐步取代或替代类似于CPU的通用器件，GPU的需求会缩量，ASIC的需求会增多目录 01DeepSeek技术创新 02DeepSeek对国产芯片的影响 03 国芯在制程技术、国产开发生态等领域面临严峻挑战技术壁垒短时间内难突破 CUDA生态壁垒需要多方协同、长期攻克 •受限于光刻机等的限制，中国大陆7nm以下制程工艺迟迟无法突破、7nm规格的芯片良品率也有待提升•作为中国大陆典型的晶圆厂商，中芯国际（SMIC）市占率仅为6%，不及台积电的1/10，供货量紧缺 •英伟达CUDA生态开发者基数是国产方案的6.5倍：CUDA生态并非简单的软件工具集，而是“开发者—工具链—AI开发框架—企业利益”的闭环系统•国产AI生态需要从“开发者-工具链-主流AI框架”等多个角度努力补功课谢谢观看联系我们苏长飞科智咨询资深分析师peter@kzconsulting.cn 免责声明：本文件由科智咨询撰写和制作，仅作为研究内容介绍之用。未经科智咨询许可，不得对文中内容进行任何形式的复制。尽管我们对所依据的信息和资料保持高度谨慎，但无法对其中的准确性和完整性做出绝对保证，请勿绝对化地加以利用。文中所述观点有可能在未经知会的情况下进行调整。报告内容亦非根据任何公司所处独特环境而提供的具体咨询建议。如果您需要就文中提及内容获得具体建议及进一步的详细资料，请与我们进行联系。

点击免费查看完整报告

你可能感兴趣

DeepSeek对国产芯片的影响

DeepSeek技术创新

DeepSeek对国产芯片的影响

国产芯片面临的挑战和发展机遇

你可能感兴趣

通信行业周跟踪：英伟达scale-across新品加速DCI建设，DeepSeek有望加大国产芯片适配

通信行业周报：DeepSeek带动国产专用芯片、AIDC、物联网等板块景气度攀升

DeepSeek对AI产业的影响深度分析DeepSeek爆火背后，AI产业将面临怎样的颠覆与冲击？

Deepseek对化工行业的影响20250310

国君电子|本地模型部署需求爆发,AIPC换机加速 ——系列六Deepseek对PC的影响