您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国投证券]:DeepSeek V4 模型详细解读 - 发现报告

DeepSeek V4 模型详细解读

信息技术 2026-04-27 国投证券 曾阿牛
报告封面

2026年04月27日计算机 证券研究报告 DeepSeek V4模型详细解读 投资评级领先大市-A维持评级 DeepSeek V4发布,性能比肩顶尖闭源模型 4月24日,DeepSeek公司的全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。DeepSeek-V4-Pro拥有1.6T的参数量以及49B的激活参数,预训练数据量33T,上下文长度1M;DeepSeek-V4-Flash版本拥有284B总参数量以及13B激活参数,32T预训练数据,同样1M的上下文。 首选股票目标价(元)评级 从模型性能测试来看,DeepSeek-V4-Pro性能比肩顶级闭源模型。1)Agent能力大幅提高:在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。2)丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1;3)世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,比肩世界顶级闭源模型。 预训练三大更新,后训练引入OPD,全面拥抱国产算力 赵阳分析师SAC执业证书编号:S1450522040001zhaoyang1@sdicsc.com.cn 模型训练:预训练阶段实现三大更新:mHC实现流形约束的残差连接;混合注意力机制(CSA+HCA)进一步压缩KV矩阵,实现超长上下文训练;采用Muon优化器,实现更快的收敛速度和更强的稳定性。后训练阶段采用OPD(On-Policy Distillation,同策略知识蒸馏)实现专家模型的融合。 杨楠分析师SAC执业证书编号:S1450522060001yangnan2@sdicsc.com.cn 模型基建:采用国产的TileLang实现算子开发。V4的算子开发从CUDA/Triton切到了北大开源的TileLang。DeepSeek V4通过采用TileLang语言做算子开发,实现了Host(CPU)开销降低、数值精度与CUDA比特级一致、全面适配国产芯片平台等能力的提升。 夏瀛韬分析师SAC执业证书编号:S1450521120006xiayt@sdicsc.com.cn 相关报告 华为昇腾超节点系列产品全面支持。根据华为官方公众号的披露,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配。 英伟达Ising量子AI模型解读2026-04-20800V HVDC开始量产,SST产业进展提速2026-04-13拥抱“光”,电子测量仪器板块迎来戴维斯双击2026-04-07算电协同为AI和能源数智化注入攻守兼备增长极2026-03-22国产Claw类产品应用大盘点2026-03-15 建议关注:国产算力产业链芯片、算力租赁、云计算、IDC全产业链的投资机会。 风险提示:技术迭代不及预期;市场需求不及预期等。 内容目录 1.本周行业观点.............................................................32.市场行情回顾.............................................................52.1.本周板块指数涨跌幅..................................................52.2.本周计算机个股表现..................................................63.行业重要新闻.............................................................7 图表目录 图1.本周各行业涨跌幅统计..................................................6 表1:本周A股市场指数涨跌幅统计............................................5表2:本周海外市场指数涨跌幅统计............................................5表3:本周计算机个股涨跌幅统计..............................................6 1.本周行业观点 DeepSeek V4发布,性能比肩顶尖闭源模型 4月24日,DeepSeek公司的全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。DeepSeek-V4-Pro拥有1.6T的参数量以及49B的激活参数,预训练数据量33T,上下文长度1M;DeepSeek-V4-Flash版本拥有284B总参数量以及13B激活参数,32T预训练数据,同样1M的上下文。 从模型性能测试来看,DeepSeek-V4-Pro性能比肩顶级闭源模型。1)Agent能力大幅提高:在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的AgenticCoding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。2)丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1;3)世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,比肩世界顶级闭源模型。 模型训练:预训练三大更新,后训练引入OPD 预训练阶段实现三大更新:1)mHC实现流形约束的残差连接:传统在Transformer Block之间的残差连接是单路的残差流,残差流宽度固定,特征混合能力弱,深度堆叠后表达力受限。HC(Hyper-Connection)将单路的残差流变成多路并行,并由B矩阵将多路残差进行混合。但是B矩阵本身无约束,从而可能导致谱范数爆炸,在深层堆叠时训练剧烈震荡、数值奔溃。mHC(Manifold-Constrained HC)将B矩阵投影到双随机矩阵流形,从而对B矩阵的谱范数进行约束,确保深层堆叠过程的稳定,使得万亿参数的深层模型能够达到更好的表达力。 2)混合注意力机制(CSA+HCA)进一步压缩KV矩阵,实现超长上下文训练。CSA(CompressedSparse Attention,压缩稀疏注意力)先把每m个token的KV压缩成1个,再做稀疏注意力加速。HCA(Heavily Compressed Attention,重度压缩注意力)实现极致压缩,将m’(远大于m)个token压缩成1个,但是不做稀疏化,保留全注意力。V4将CSA和HCA交替使用,CSA适合做token-level精细检索而HCA适合做长距离的全局信号汇总,从而使得1M上下文成为可能。根据技术报告,V4-Pro相比于V3.2,单token推理FLOPs只要V3.2的27%,KV cache只要V3.2的10%。 3)采用Muon优化器,实现更快的收敛速度和更强的稳定性。V4采用Muon优化器替代了传统的AdamW优化器,一方面使得训练更稳定,解决深层模型信号爆炸/消失的问题,一方面收敛速度也有望加快。Muon优化器此前在Kimi K2的万亿参数训练中使用,证明了其训练效果的稳定性和加速能力。 后训练阶段:采用OPD(On-Policy Distillation,同策略知识蒸馏)实现专家模型的融合。在后训练阶段,V4模型首先通过SFT+GRPO的RL训练多个垂直专家,包括数学、代码、Agent、指令跟踪。再利用OPD替代此前V3中的Mixed RL实现专家融合。Mixed RL依靠多任务的强化学习和单维的奖励分来约束模型,从而会导致多任务强化目标的冲突以及奖励维度过于单一。而OPD通过让学生模型基于自己生成的回答轨迹,去学习多位专家教师模型给出的输出概率分布,从而实现多专家的温和融合。 模型基建:全面拥抱国产算力基础设施 采用国产的TileLang实现算子开发。V4的算子开发从CUDA/Triton切到了北大开源的TileLang。TileLang是一款由北京大学计算机学院团队主导开发的开源高性能AI算子编程语言,属于领域特定语言(DSL),于2025年1月在GitHub开源。目前已经与华为昇腾、摩尔线程、沐曦等国产芯片厂商达成适配合作。DeepSeek V4通过采用TileLang 语言做算子开发,实现了Host(CPU)开销降低、数值精度与CUDA比特级一致、全面适配国产芯片平台等能力的提升。 华为昇腾超节点系列产品全面支持。根据华为官方公众号的披露,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeekV4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。 建议关注:国产算力产业链芯片、算力租赁、云计算、IDC全产业链的投资机会。 2.市场行情回顾 2.1.本周板块指数涨跌幅 本周上证综指上涨0.7%,深证成指上涨0.37%,创业板指下跌0.29%,沪深300上涨0.86%。本周计算机板块相对上证综指跑输0.58%,板块表现相对较强。 横向来看,本周计算机行业指数在中信30个行业指数中排名第12,在TMT四大行业(电子、通信、计算机、传媒)中排名第3。 资料来源:iFind,国投证券证券研究所 2.2.本周计算机个股表现 从涨跌幅情况来看,本周计算机板块整体相对较强。 3.行业重要新闻 美国参议院全票推进量子法案重授权,政策重心转向产业化并强化对华竞争导向 美国参议院商务委员会通过《2026年国家量子计划重授权法案》,拟将联邦量子研发框架延续至2034年。该法案由两党议员共同提出,在审议过程中纳入七项修正案,涉及量子制造、应用落地及后量子密码迁移等内容。法案提出由国家标准与技术研究院(NIST)设立量子研究中心,由国家科学基金会(NSF)建设多学科研究与教育中心,并首次将美国国家航空航天局(NASA)纳入量子战略体系,支持量子通信与空间相关研究。与此同时,法案要求梳理量子供应链风险并制定相关方案。企业方面,多家科技公司及行业组织公开表示支持。(来