行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业周报：DeepSeek V4发布，国产算力加速

信息技术 2026-04-25 李可夫,刘高畅国金证券秋穆

DeepSeek V4发布，国产算力加速计算机行业研究买入（维持评级）行业周报证券研究报告计算机组分析师：李可夫（执业S1130525120009）likefu＠gjzq.com.cn分析师：刘高畅（执业S1130525120005）liugaochang＠gjzq.com.cn DeepSeek V4发布，国产算力加速 DeepSeek-V4重磅发布——百万上下文普惠时代正式启幕摘要：2026年4月24日，DeepSeek正式上线并开源DeepSeek-V4预览版，同步发布完整技术报告，推出DeepSeek-V4-Pro与DeepSeek-V4-Flash两个版本，分别具备1.6万亿总参数（49B激活参数）与2840亿总参数（13B激活参数）。该系列模型通过架构创新，将最大上下文长度提升至100万Token，大幅降低计算与内存成本，其中V4-Pro、V4-Flash在百万Token场景下的单Token推理FLOPs及KVCache占用较V3.2大幅下降。同时，V4-Pro-Max模式在Agent能力、世界知识、推理性能上表现优异，接近世界顶级闭源模型水平，当前已应用于公司内部Agentic Coding场景；成本方面官方预计下半年昇腾950超节点批量上市后将大幅下调价格推动技术普惠。架构革新赋能效率跃升——从算法到基建的全链路创新 DeepSeek-V4的高效能得益于多项架构创新，形成从算法到底层基建的全链路优化体系。算法层面，采用CSA与HCA融合的混合注意力机制，搭配流形约束超连接（mHC）与Muon优化器，既提升长上下文运算效率，又强化模型建模能力、加快训练收敛速度。底层基建方面，通过MoE模块一体化融合内核、领域专用语言TileLang、FP4量化感知训练等多项优化，实现计算、通信与内存访问的高效协同，降低内存占用与计算开销；训练与推理框架层面，通过自动微分模块拓展、异构KV缓存架构设计等策略，全方位提升训练与推理效率。这些创新不仅支撑了DeepSeek-V4的性能突破，其开源特性也为国内其他国产模型提供了可借鉴的技术范式，助力国内大模型整体水平提升。国产算力协同适配——Day 0双首发，助力产业自主可控 DeepSeek-V4发布当日即实现寒武纪、华为昇腾两大国产芯片的Day 0适配，彰显了国产大模型与国产算力的深度协同能力。寒武纪基于vLLM推理框架完成适配并开源代码，通过自研融合算子库、高性能编程语言及多维度推理框架优化，深度挖掘硬件特性，充分释放模型推理潜能。华为昇腾超节点全系列产品全面支持该模型，昇腾950通过融合kernel、多流并行等技术及底层架构升级，实现高吞吐、低时延部署；昇腾A3超节点也完成适配并提供训练参考实现。体现了DeepSeek与国产芯片厂商在技术预研、软硬协同上的深入合作，对推动国内大模型软硬件产业协同发展、加速AI算力生态自主可控具有重要意义。投资建议相关标的：国内算力：寒武纪、东阳光、海光信息、利通电子、协创数据、浪潮信息、华勤技术、网宿科技、芯原股份、华丰科技、亿田智能、豫能控股、星环科技、首都在线、神州数码、百度集团、中芯国际、华虹半导体、中科曙光、润泽科技、大位科技、润建股份、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。海外算力/存储：胜宏科技、中际旭创、东山精密、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等；Lumentum、闪迪、博通、marvell、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。 CPU：海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。AI应用：1）大模型&自定义Agent：智谱、Minimax、腾讯控股、阿里巴巴、科大讯飞。2）星环科技、德才股份、美年健康、真爱美家、中控技术、金蝶国际、迪普科技、云知声、多点数智、聚水潭、迈富时、阜博集团、范式智能、汇量科技等AI INFRA&高景气&高壁垒。其他：空天时代、具身智能等。风险提示行业竞争加剧的风险；技术研发进度不及预期的风险；特定行业下游资本开支周期性波动的风险。内容目录 DeepSeek-V4概览：百万上下文普惠时代开启.......................................................3架构革新赋能效率跃升——从算法到基建的全链路创新...............................................52.1混合注意力机制：CSA + HCA..............................................................52.2多项底层基建优化：.....................................................................6国产算力协同适配——Day 0双首发，助力产业自主可控.............................................63.1寒武纪.................................................................................63.2华为昇腾...............................................................................7投资建议.......................................................................................7风险提示.......................................................................................7 图表目录图表1：DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化......................4图表2：模型架构示意图........................................................................5图表3：V4的KV缓存布局由两个主要部分构成：用于CSA/HCA的经典KV缓存，以及用于SWA和CSA/HCA中尚未准备好压缩的token的状态缓存............................................................6 DeepSeek-V4概览：百万上下文普惠时代开启 2026年4月24日，DeepSeek正式上线并开源DeepSeek-V4预览版，同步发布完整技术报告。此次发布分为两个版本：DeepSeek-V4-Pro（1.6万亿总参数，49B激活参数）和DeepSeek-V4-Flash（2840亿总参数，13B激活参数） DeepSeek通过架构创新大幅降低了计算和内存成本，V4-Pro与V4-Flash最大上下文长度为1M，技术报告数据显示，在100万Token场景下，相比V3.2，V4-Pro单Token推理FLOPs相比V3.2降低3.7倍，KV Cache降低9.5倍；V4-Flash进一步降低至FLOPs的1/9.8、KV Cache的1/13.7。这意味着处理同等长度上下文的硬件成本大幅下降，使百万Token推理在商业环境中具备实际可行性 DeepSeek-V4-Pro-Max（最高推理强度模式）在多个维度的核心评测表现如下： Agent能力大幅提高：相比前代模型，DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding 模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。丰富的世界知识：DeepSeek-V4-Pro在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。成本方面，DeepSeek-V4-Pro定价输入百万token输入成本为1元（缓存命中）/12（缓存未命中），百万token输出成本为24元。deepseek官方表示：受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。架构革新赋能效率跃升——从算法到基建的全链路创新 2.1混合注意力机制：CSA + HCA 为提升长上下文运算效率，团队设计融合压缩稀疏注意力（CSA）与高强度压缩注意力（HCA）的混合注意力机制：CSA沿序列维度压缩KV缓存，再执行DeepSeek稀疏注意力（DSA）；HCA则采用更高压缩率处理KV缓存，同时保留稠密注意力计算。为强化模型建模能力，引入流形约束超连接（mHC），对传统残差连接完成全面升级。此外，训练环节引入Muon优化器，有效加快收敛速度、提升训练稳定性。来源：deepseek技术报告,国金证券研究所 2.2多项底层基建优化：为MoE模块设计一体化融合内核，实现计算、通信与内存访问的完全重叠；采用领域专用语言TileLang，平衡开发效率与运行时性能；提供批量无关、可确定性内核库，保障训练与推理全程位级可复现；针对MoE专家权重与索引器QK计算路径，落地FP4量化感知训练，降低内存占用与计算开销；训练框架层面：拓展自动微分模块，支持张量级检查点，实现精细化重计算控制；搭配适配Muon优化器的混合ZeRO策略、基于重计算与融合内核的低成本mHC部署方案、面向压缩注意力的双阶段上下文并行策略，全方位提升训练效率；推理框架层面：设计异构KV缓存架构，结合磁盘存储策略，实现共享前缀的高效复用。我们认为，作为开源模型，DeepSeek V4的各项技术创新可以被其他国产模型学习，有利于国内整体大模型水平的提高。国产算力协同适配——Day 0双首发，助力产业自主可控 3.1寒武纪 DeepSeek-V4发布当日，寒武纪已基于vLLM推理框架完成Day 0适配，代码开源到GitHub社区。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术，也是寒武纪对芯片与算法联合创新持续投入的延续。此前，寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化，达成业界领先的算力利用率水平。极致性能优化，释放DeepSeek-V4推理潜能针对DeepSeek-V4的新结构，寒武纪通过自研高性能融合算子库Torch-MLU-Ops，对Compressor、mHC等模块进行专项加速；利用BangC高性能编程语言，编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，充分释放硬件底层性能。在推理框架优化层面，寒武纪在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术，通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率。硬件特性同样被深度挖掘：利用MLU访存与排序加速能力，有效加速稀疏Attention、Indexer等结构；高互联带宽与低通信延时，将Prefill和Decode两种不同工作负载场景下的

点击免费查看完整报告

你可能感兴趣

计算机行业周报：DeepSeek V4发布，国产算力加速

你可能感兴趣

全球科技（计算机）行业周报：DeepSeek V3.1发布有望催化国产算力需求及Agent应用

计算机行业月报：AI应用全面加速，DeepSeek V4有望深刻改变全球AI的竞争格局

计算机行业周报：DeepSeek助力国产算力价值重估

计算机周报：国产AI算力或是DeepSeek预期差最大的受益方向

国盛证券-传媒互联网行业周观察：Deepseek V4或将发布，关注游戏大单品&Q1高景气-260302