您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [科智咨询]:DeepSeek对国产芯片的影响 - 发现报告

DeepSeek对国产芯片的影响

信息技术 2025-04-28 - 科智咨询 周振
报告封面

科智咨询云网研究事业部苏长飞 2025年4月 目录 01DeepSeek技术创新 02DeepSeek对国产芯片的影响 03 DeepSeek的出现标志着我国在生成式AI领域达到世界领先级别 架构创新 •无辅助损失负载平衡的DeepSeekMoE DeepSeek-V3提出了一种无辅助损失的负载均衡策略(Loss-FreeBalancing),通过动态调整每个专家的偏差来控制负载平衡,而不引入干扰梯度。减少因鼓励负载均衡而对模型性能产生的负面影响。 •Multi-Head Latent Attention (MLA) MLA的核心在于通过低秩联合压缩来减少注意力键(keys)和值(values)在推理过程中的缓存,从而提高推理效率 软硬协同工程优化1/2 •多token预测(Multi-Token Prediction, MTP) 主流大模型token-by-token生成序列,而每次token生成需要频繁与访存交互,从而因为访存效率形成训练或推理的瓶颈。MTP方法主要将单token的生成,转变成多token的生成,提升训练和推理的性能。DeepSeek主要对传统MTP算法进行了一定优化,顺序预测额外token,并在每个预测深度保持完整的因果链。 •FP8混合精度训练框架 在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操作)均以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并输出BF16或FP32格式的结果。如下图所示,与线性算子(Linear operator)相关的三个GEMM运算——前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯度反向传播(Wgrad)——都采用FP8精度执行。对以下模块维持原有精度(如BF16或FP32):嵌入模块(embedding module )、输出头(output head)、混合专家门控模块(MoE gating modules)、标准化算子(normalization operators)以及注意力算子(attention operators)。(尽管FP8格式具有计算效率优势,但由于部分算子对低精度计算较为敏感,仍需保持更高计算精度) 软硬协同工程优化2/2 •计算-通信重叠(DualPipe调度策略) DeepSeek-V3设计了DualPipe算法,用于高效的流水线并行计算。该算法通过重叠计算和通信,减少了流水线气泡,并在跨节点的专家并行训练中实现了近乎完全的计算-通信重叠,显著提升了训练效率。 •通过PTX手动优化跨芯片通信 英伟达H800芯片互联带宽相比H100被阉割,为弥补这一缺陷,DeepSeek借助PTX手动优化跨芯片通信,保障数据传输效率。PTX是CUDA编译的中间代码,处于高级编程语言(如CUDA C/C++)和底层机器码(SASS)之间,起到在CUDA和最终机器码之间的桥梁作用。借助PTX,开发者能够直接对GPU的寄存器分配、线程调度等硬件级操作进行控制,实现细粒度的性能优化。在多GPU协同训练场景中,可通过PTX手动调整跨芯片通信效率,提升整体训练效能。 目录 01DeepSeek技术创新 02 DeepSeek对国产芯片的影响 03 开源生态打开国产算力需求空间 刺激算力总需求持续增长 •算力总需求持续增长:根据科智咨询发布的中国智能算力市场规模研究报告,2024-2028年,中国智能算力规模仍将保持近40%的高速增长 •推理侧需求爆发:推理侧需求占比将爆发式增长,至2027年将从目前的65%增长至72% •“杰文斯悖论”指出,技术进步导致资源使用效率的提高,反而可能增加资源的总体消费量。 •在 图 中 , 燃 料 成 本 下 降20%(从100美元到80美元),旅行量增加了40%(从10单位到14单位) 数据来源:科智咨询、公开信息 降低算力依赖,激活国产芯片潜力 算法创新驱动算力效率提升:通过MLA、MOE、无辅助损失负载均衡等技术,显著优化模型训练效率,在同等模型效果的基础上,训练成本仅为海外领先模型成本的1/10 模型轻量化降低算力门槛:通过轻量化模型和知识蒸馏技术,DeepSeek能够在国产芯片上实现高性能推理。例如,天数、沐曦等众多国产厂商在极短的时间内完成模型适配 DeepSeek-V3和R1模型不仅性能出色,训练成本也极低。V3模型仅用2048块H800 GPU训练2个月,消耗278.8万GPU小时。相比之下,Llama3-405B消耗了3080万GPU小时,是V3的11倍。按H800 GPU每小时2美金计算,V3的训练成本仅为557.6万美金,而同等性能的模型通常需要0.6-1亿美金。R1模型在V3基础上,通过引入大规模强化学习和多阶段训练,进一步提升了推理能力,成本可能更低。 产业链协同 构建自主AI生态闭环:促进国产芯片硬件的适配落地和软件生态的繁荣 繁荣国产软件生态 芯片厂商加速适配与落地 •DeepSeek采用宽松的MIT协议和强可复现性,得到广泛的应用•DeepSeek的开源策略吸引众多开发者和企业的参与。国产算力芯片厂商可以围绕DeepSeek建立相关的软件生态,开发适配的驱动程序、开发工具、优化库等,吸引更多开发者基于国产芯片和DeepSeek进行应用开发,丰富软件生态资源,提升国产算力芯片的易用性和竞争力 产业链协同 构建自主AI生态闭环:推动ASIC技术实质性发展,形成模型-芯片-系统的全国产闭环 推动ASIC的芯片技术路线发展 DeepSeek的算法优化创新,带动模型成本急速降低,软硬件协同成为下一步发展的关键,未来ASIC将成为行业主导,逐步取代或替代类似于CPU的通用器件,GPU的需求会缩量,ASIC的需求会增多 目录 01DeepSeek技术创新 02DeepSeek对国产芯片的影响 03 国芯在制程技术、国产开发生态等领域面临严峻挑战 技术壁垒短时间内难突破 CUDA生态壁垒需要多方协同、长期攻克 •受限于光刻机等的限制,中国大陆7nm以下制程工艺迟迟无法突破、7nm规格的芯片良品率也有待提升•作为中国大陆典型的晶圆厂商,中芯国际(SMIC)市占率仅为6%,不及台积电的1/10,供货量紧缺 •英伟达CUDA生态开发者基数是国产方案的6.5倍:CUDA生态并非简单的软件工具集,而是“开发者—工具链—AI开发框架—企业利益”的闭环系统•国产AI生态需要从“开发者-工具链-主流AI框架”等多个角度努力补功课 谢谢观看 联系我们 苏长飞科智咨询资深分析师peter@kzconsulting.cn 免责声明: 本文件由科智咨询撰写和制作,仅作为研究内容介绍之用。未经科智咨询许可,不得对文中内容进行任何形式的复制。尽管我们对所依据的信息和资料保持高度谨慎,但无法对其中的准确性和完整性做出绝对保证,请勿绝对化地加以利用。文中所述观点有可能在未经知会的情况下进行调整。报告内容亦非根据任何公司所处独特环境而提供的具体咨询建议。如果您需要就文中提及内容获得具体建议及进一步的详细资料,请与我们进行联系。