您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国信证券]:DeepSeek-V4点评:多层面技术提升训练规模,超长上下文进入普惠时代 - 发现报告

DeepSeek-V4点评:多层面技术提升训练规模,超长上下文进入普惠时代

信息技术 2026-04-26 熊莉 国信证券 浮云
报告封面

优于大市 多层面技术提升训练规模,超长上下文进入普惠时代 投资评级:优于大市(维持) 计算机 证券分析师:熊莉021-61761067xiongli1@guosen.com.cn执证编码:S0980519030002 事项: 2026年4月24日,DeepSeek最新模型V4预览版本正式上线并同步开源,包括两个MoE语言模型——DeepSeek-V4-Pro(总参数量1.6万亿,其中激活参数为490亿)和DeepSeek-V4-Flash(总参数量2840亿,其中激活参数为130亿),两者均支持长达一百万token的上下文长度,DeepSeek-V4系列在架构与优化方面进行了多项关键升级。 国信计算机观点:DeepSeek-V4已经具备接近全球第一梯队的综合能力,同时通过极具竞争力的价格体系,打开了大规模企业级AI Agent落地的商业空间。其在长上下文训练中的优化为基础模型的进步提供了全新的方向,后续百万上下文有望成为前沿模型的标配。同时,DeepSeek-V4在国产算力方面积极适配,有望推动整体国产算力需求增长。风险提示:下游需求不及预期、AI应用落地不及预期、硬件技术落地进程不及预期、宏观经济波动等。 评论: 模型层: 2026年4月24日,DeepSeek最新模型V4预览版本正式上线并同步开源,包括两个MoE语言模型——DeepSeek-V4-Pro(总参数量1.6万亿,其中激活参数为490亿)和DeepSeek-V4-Flash(总参数量2840亿,其中激活参数为130亿),两者均支持长达一百万token的上下文长度,DeepSeek-V4系列在架构与优化方面进行了多项关键升级: 1)混合注意力架构CSA+HCA:不是继续沿用标准denseattention,而是把注意力拆成两类,CSA先把KV沿序列维压缩,再做稀疏选择;HCA则用更激进的压缩,但保留dense attention。两者交替使用,目标是同时兼顾局部依赖、全局检索能力和极端长序列下的成本控制。此设计不是单点优化,而是从attention结构层面重写了长上下文的成本函数,因此能把1Mcontext真正做成系统级可运行方案。在100万token场景下,V4-Pro的单token推理FLOPs只有DeepSeek-V3.2的27%,KV cache只有10%,V4-Flash更低到10%FLOPs和7%KV cache。 2)mHC(Manifold-Constrained Hyper-Connections):把残差连接从经验上有效变成数值上更稳定的可控结构。普通Hyper-Connections虽然能增强表达,但深层堆叠时容易数值不稳定;于是V4把残差映射矩阵约束到doublystochasticmanifold上,使其谱范数受限、残差传播变成non-expansive,从而改善深层训练稳定性。 3)把Muon optimizer真正落到超大规模训练中:不是简单换了个优化器,而是把Muon作为大部分模块的 主 优 化 器 , 同 时 保 留AdamW给embedding、norm、head等 部 分 , 再 配 合hybrid Newton-Schulzorthogonalization去提升收敛和稳定性。 4)FP4量化训练(QAT):DeepSeek把FP4用在两个位置,一是MoEexpertweights,二是CSA里indexer的QK路径;同时还把indexscores从FP32压到BF16,使top-kselector达到2×加速,同时保留99.7%的KV召回率。同时,FP4到FP8的dequantization在其设定下可以无损地复用现有FP8训练框架,这使 得低比特方案不只是理论节省显存,而是真正进入了可训练、可rollout、可部署的主干流程。 5)后训练专家独立训练+on-policy distillation统一蒸馏:不是直接把一个通用模型拿去做混合RL,而是先分别培养数学、代码、agent、instruction-following等领域专家,再通过on-policydistillation把这些能力蒸馏回一个统一模型。设计的意义在于把专才能力最强和最终交付一个通用模型两个目标拆开做,兼顾specialization和consolidation。 6)基础设施层面创新:MoE中把通信、计算、访存做成单融合kernel;更细粒度的expert wave调度来隐藏通信开销。这个MoE通信—计算融合方案不只理论可行,DeepSeek在NVIDIAGPUs和HUAWEIAscendNPUs平台上都对细粒度EP调度方案完成了验证,该方案在通用推理负载下可实现1.50-1.73倍的加速,在时延敏感型场景(如RL采样迭代、高速智能体服务)中,最高加速比可达1.96倍。 DeepSeek-V4使用超32万亿token数据对模型进行预训练,并辅以完整的后训练流程,以释放并增强模型能力。其中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro的最高推理强度模式)在核心任务上重新定义了开源模型SOTA,性能超越其前代模型。DeepSeek-V4系列在长上下文场景下具有极高的效率,在百万token的上下文设置中,DeepSeek-V4-Pro的单token推理计算量(FLOPs)仅为DeepSeek-V3.2的27%,KV缓存仅为其10%。这使得模型能够常规性支持百万token的上下文,从而让长时序任务更加可行。 混合注意力架构CSA+HCA: 在普通Transformer里,假设用户现在生成第100万个token,理论上要去关注前面所有token。因为每个token都要和前面大量token做匹配,序列越长,计算量和KVcache都会指数级增长,因此标准attention的二次复杂度是超长上下文和长推理过程的核心瓶颈。 CSA(CompressedSparse Attention,压缩稀疏注意力)主要有以下效果: 1)Compressed(压缩KV):假设原来有100万个token,每个token都有自己的KV。CSA不再保留100万个独立KV,而是每隔一组token把它们压缩成一个“压缩KV条目”。CSA会把每m个token的KV cache压缩成一个entry,从而把序列长度压缩到原来的1/m; 2)Sparse(稀疏选择):压缩后当前token不是把所有摘要块都看一遍,而是通过一个轻量级indexer,先判断哪些压缩块最相关,然后只选top-k个块进入真正的attention。用indexer给压缩KV块打分,再用top-k selector选择一部分压缩KV进入后续核心attention,即Lightning Indexer for SparseSelection。 但是单纯压缩会丢失细节,模型如果只看压缩摘要,可能看不到精细的局部关系。DeepSeek额外加了一个slidingwindowattention(滑动窗口注意力),它会让当前token仍然直接看最近的一小段未压缩token。语言模型生成时,最近几个token往往特别重要,例如ThecapitalofFranceis...,生成下一个词时最近的“France is”非常关键,不能只靠压缩摘要。 HCA(HeavilyCompressedAttention,重度压缩注意力),会把更大范围的token压成一个KV块。HCA使用更大的压缩率m′,且m′远大于CSA里的m,即m′≫m。HCA把每m′个token的KV压缩成一个entry,但不使用稀疏attention。 CSA压缩更少,而且还会选top-k相关块,所以保留的信息更细一些,适合找具体内容,但它需要indexer和top-k选择,机制更复杂。HCA极度省算力、省KVcache,而且可以保留很长范围的全局信息,但压缩更多,细节丢得更多。因此DeepSeek-V4采用混合结构,有些层用CSA负责更细粒度地找相关内容、有些层用HCA负责低成本保留超长全局信息。HCA用于看整体框架,CSA用于查找相关框架内需要内容的摘要,有效降低了长上下文下的计算成本,提升了运行速度。 通过压缩的架构,模型不再受困于计算资源的限制,在长上下文任务方面展现出极强的可用性。在Codeforces这种编程竞赛中,V4-Pro-Max以3206分的Rating首平了OpenAI的GPT-5.4等闭源顶流。在用于衡量模型的上下文内检索能力的MRCR任务中,DeepSeek-V4-Pro表现优于Gemini-3.1-Pro,但仍落后于ClaudeOpus4.6。在128K上下文窗口以内,模型的检索表现保持高度稳定。虽然超过128K后性能下降开始变得明显,但在100万token场景下,相较于闭源和开源竞品,DeepSeek-V4-Pro的检索能力仍然相当强。 新型残差连接架构mHC: 大模型层数很深时,每一层都在不断改写信息,如果层与层之间的信息传递太随意,信号可能越传越乱、越传越多,训练就不稳定。Transformer里每一层不是直接把输入扔掉,然后只保留这一层算出来的新结果。而通常是下一层输入=原来的输入+当前层算出来的新信息(x_{l+1}=x_l+F_l(x_l)),如果模型很深,信息一层一层传下去容易丢失。Residualconnection给信息提供了传递路径,即使一层没计算好,原始信息也还能传到后面。 普通residual默认每一层的信息传递方式都为保留旧信息+加入新信息,但是超大模型有时需要多保留一点旧信息+少加一点新信息、不同信息内容重新混合或让前面某些层的信息绕过中间层传得更远,此时普通residual只有一条信息流(x_l)的模式难以满足模型需求。 Hyper-Connections会把residualstream扩展成多条信息流,HC会把residualstream的宽度从d扩展到n_hc×d,不是改变Transformer内部attention/MoE的hidden size,而是在层与层之间额外维护多个residual状态,模型不再只有一条信息传递路径,而是可以在多个residual通道之间动态混合。但普通HC容易不稳定,如果有多条信息流,每一层还可以自由混合这些信息流,层数一深,信号就可能不断放大。这样就会出现数值爆炸,训练不稳定,影响HC的规模化使用。 mHC全称Manifold-ConstrainedHyper-Connections(流形约束的超连接),HC的核心是多条residual信息流之间可以混合。这个混合靠一个矩阵完成,论文里叫B_l,在mHC中B_l被约束成一种特殊矩阵doublystochasticmatrix(双随机矩阵)。双随机矩阵指所有元素都不能是负数、每一行加起来等于1、每一列加起来也等于1的矩阵,只在重新分配信息,不会凭空把信息无限放大。 mHC被放在Transformerblock之间,用来加强传统residualconnections。整个block仍然包括CSA/HCAattention和DeepSeekMoE,但层与层之间的信息传递方式被mHC改造了,每一层residual信息流的混合方式可以根据当前输入稍微调整,有三个主要映射:A_l读信息(决定从多条residual流中取哪些信息送进当前层)、B_l混合旧信息(决定residual流之间怎么混合)、C_l写入新信息(决定当前层输出的新信息怎么写回residual流)。 普通HC的公式是:X_{l+1}=B_lX_l+C_lF_l(A_lX_l):下一层的多路residual状态=对旧residual状态做稳定混合+把当前Transformer层算出的新信息写进去。mHC是多份旧信息经过稳定混合+新信息按规则写回多个residual通道,它维护了多条residual通路,不同层的信息可以更灵活地组合,模型能力更强,同时residualmi