您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:计算机行业周报:DeepSeek V4发布,国产算力加速 - 发现报告

计算机行业周报:DeepSeek V4发布,国产算力加速

信息技术 2026-04-25 李可夫,刘高畅 国金证券 秋穆
报告封面

DeepSeek V4发布,国产算力加速计算机行业研究 买入(维持评级) 行业周报 证券研究报告 计算机组 分析师:李可夫(执业S1130525120009)likefu@gjzq.com.cn分析师:刘高畅(执业S1130525120005)liugaochang@gjzq.com.cn DeepSeek V4发布,国产算力加速 DeepSeek-V4重磅发布——百万上下文普惠时代正式启幕 摘要:2026年4月24日,DeepSeek正式上线并开源DeepSeek-V4预览版,同步发布完整技术报告,推出DeepSeek-V4-Pro与DeepSeek-V4-Flash两个版本,分别具备1.6万亿总参数(49B激活参数)与2840亿总参数(13B激活参数)。该系列模型通过架构创新,将最大上下文长度提升至100万Token,大幅降低计算与内存成本,其中V4-Pro、V4-Flash在百万Token场景下的单Token推理FLOPs及KVCache占用较V3.2大幅下降。同时,V4-Pro-Max模式在Agent能力、世界知识、推理性能上表现优异,接近世界顶级闭源模型水平,当前已应用于公司内部Agentic Coding场景;成本方面官方预计下半年昇腾950超节点批量上市后将大幅下调价格推动技术普惠。 架构革新赋能效率跃升——从算法到基建的全链路创新 DeepSeek-V4的高效能得益于多项架构创新,形成从算法到底层基建的全链路优化体系。算法层面,采用CSA与HCA融合的混合注意力机制,搭配流形约束超连接(mHC)与Muon优化器,既提升长上下文运算效率,又强化模型建模能力、加快训练收敛速度。底层基建方面,通过MoE模块一体化融合内核、领域专用语言TileLang、FP4量化感知训练等多项优化,实现计算、通信与内存访问的高效协同,降低内存占用与计算开销;训练与推理框架层面,通过自动微分模块拓展、异构KV缓存架构设计等策略,全方位提升训练与推理效率。这些创新不仅支撑了DeepSeek-V4的性能突破,其开源特性也为国内其他国产模型提供了可借鉴的技术范式,助力国内大模型整体水平提升。 国产算力协同适配——Day 0双首发,助力产业自主可控 DeepSeek-V4发布当日即实现寒武纪、华为昇腾两大国产芯片的Day 0适配,彰显了国产大模型与国产算力的深度协同能力。寒武纪基于vLLM推理框架完成适配并开源代码,通过自研融合算子库、高性能编程语言及多维度推理框架优化,深度挖掘硬件特性,充分释放模型推理潜能。华为昇腾超节点全系列产品全面支持该模型,昇腾950通过融合kernel、多流并行等技术及底层架构升级,实现高吞吐、低时延部署;昇腾A3超节点也完成适配并提供训练参考实现。体现了DeepSeek与国产芯片厂商在技术预研、软硬协同上的深入合作,对推动国内大模型软硬件产业协同发展、加速AI算力生态自主可控具有重要意义。 投资建议 相关标的: 国内算力:寒武纪、东阳光、海光信息、利通电子、协创数据、浪潮信息、华勤技术、网宿科技、芯原股份、华丰科技、亿田智能、豫能控股、星环科技、首都在线、神州数码、百度集团、中芯国际、华虹半导体、中科曙光、润泽科技、大位科技、润建股份、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。 海外算力/存储:胜宏科技、中际旭创、东山精密、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、博通、marvell、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。 CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。AI应用:1)大模型&自定义Agent:智谱、Minimax、腾讯控股、阿里巴巴、科大讯飞。2)星环科技、德才股份、美年健康、真爱美家、中控技术、金蝶国际、迪普科技、云知声、多点数智、聚水潭、迈富时、阜博集团、范式智能、汇量科技等AI INFRA&高景气&高壁垒。其他:空天时代、具身智能等。 风险提示 行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。 内容目录 DeepSeek-V4概览:百万上下文普惠时代开启.......................................................3架构革新赋能效率跃升——从算法到基建的全链路创新...............................................52.1混合注意力机制:CSA + HCA..............................................................52.2多项底层基建优化:.....................................................................6国产算力协同适配——Day 0双首发,助力产业自主可控.............................................63.1寒武纪.................................................................................63.2华为昇腾...............................................................................7投资建议.......................................................................................7风险提示.......................................................................................7 图表目录 图表1:DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化......................4图表2:模型架构示意图........................................................................5图表3:V4的KV缓存布局由两个主要部分构成:用于CSA/HCA的经典KV缓存,以及用于SWA和CSA/HCA中尚未准备好压缩的token的状态缓存............................................................6 DeepSeek-V4概览:百万上下文普惠时代开启 2026年4月24日,DeepSeek正式上线并开源DeepSeek-V4预览版,同步发布完整技术报告。此次发布分为两个版本:DeepSeek-V4-Pro(1.6万亿总参数,49B激活参数)和DeepSeek-V4-Flash(2840亿总参数,13B激活参数) DeepSeek通过架构创新大幅降低了计算和内存成本,V4-Pro与V4-Flash最大上下文长度为1M,技术报告数据显示,在100万Token场景下,相比V3.2,V4-Pro单Token推理FLOPs相比V3.2降低3.7倍,KV Cache降低9.5倍;V4-Flash进一步降低至FLOPs的1/9.8、KV Cache的1/13.7。这意味着处理同等长度上下文的硬件成本大幅下降,使百万Token推理在商业环境中具备实际可行性 DeepSeek-V4-Pro-Max(最高推理强度模式)在多个维度的核心评测表现如下: Agent能力大幅提高:相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding 模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。 丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。 世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。 成本方面,DeepSeek-V4-Pro定价输入百万token输入成本为1元(缓存命中)/12(缓存未命中),百万token输出成本为24元。deepseek官方表示:受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。 架构革新赋能效率跃升——从算法到基建的全链路创新 2.1混合注意力机制:CSA + HCA 为提升长上下文运算效率,团队设计融合压缩稀疏注意力(CSA)与高强度压缩注意力(HCA)的混合注意力机制:CSA沿序列维度压缩KV缓存,再执行DeepSeek稀疏注意力(DSA);HCA则采用更高压缩率处理KV缓存,同时保留稠密注意力计算。 为强化模型建模能力,引入流形约束超连接(mHC),对传统残差连接完成全面升级。此外,训练环节引入Muon优化器,有效加快收敛速度、提升训练稳定性。 来源:deepseek技术报告,国金证券研究所 2.2多项底层基建优化: 为MoE模块设计一体化融合内核,实现计算、通信与内存访问的完全重叠; 采用领域专用语言TileLang,平衡开发效率与运行时性能; 提供批量无关、可确定性内核库,保障训练与推理全程位级可复现; 针对MoE专家权重与索引器QK计算路径,落地FP4量化感知训练,降低内存占用与计算开销; 训练框架层面:拓展自动微分模块,支持张量级检查点,实现精细化重计算控制;搭配适配Muon优化器的混合ZeRO策略、基于重计算与融合内核的低成本mHC部署方案、面向压缩注意力的双阶段上下文并行策略,全方位提升训练效率; 推理框架层面:设计异构KV缓存架构,结合磁盘存储策略,实现共享前缀的高效复用。 我们认为,作为开源模型,DeepSeek V4的各项技术创新可以被其他国产模型学习,有利于国内整体大模型水平的提高。 国产算力协同适配——Day 0双首发,助力产业自主可控 3.1寒武纪 DeepSeek-V4发布当日,寒武纪已基于vLLM推理框架完成Day 0适配,代码开源到GitHub社区。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化,达成业界领先的算力利用率水平。 极致性能优化,释放DeepSeek-V4推理潜能 针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速;利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能。 在推理框架优化层面,寒武纪在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。 硬件特性同样被深度挖掘:利用MLU访存与排序加速能力,有效加速稀疏Attention、Indexer等结构;高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的