您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:计算机行业深度报告:国产化训练从0到1里程碑,战略意义大于性能意义 - 发现报告

计算机行业深度报告:国产化训练从0到1里程碑,战略意义大于性能意义

信息技术 2026-04-30 王紫敬 东吴证券 飞鹤萘酚
报告封面

国产化训练从0到1里程碑,战略意义大于性能意义 2026年04月30日 证券分析师王紫敬执业证书:S0600521080005021-60199781wangzj@dwzq.com.cn 增持(维持) ◼重要意义:国产开源大模型在国产算力训练适配领域以及百万级上下文能力实现了里程碑式突破。 ◼DeepSeek V4首次由华为昇腾芯片参与训练。DeepSeek V4 Flash是首个公开说明训练侧使用国产算力的通用大模型,通过三大核心设计实现了去英伟达化的技术布局。(1)引入MXFP4量化感知训练,对MoE专家权重与索引器QK路径实现FP4量化,降低了对NVIDIA FP8生态的绑定,可无缝适配华为昇腾、寒武纪等国产芯片;(2)采用TileLang领域专用语言开发底层算子,脱离CUDA生态强绑定,可跨硬件平台编译,降低向国产芯片的迁移成本;(3)自研MegaMoE2融合内核,实现专家并行的细粒度通信计算重叠,已在华为昇腾平台完成适配跑通,解决了国产硬件环境下MoE模型的通信瓶颈。 相关研究 《Agent时代CPU迎来重新定位,国产CPU有望量价齐升)》2026-04-26 ◼性能表现:整体跻身全球第一梯队,多项核心指标比肩甚至超越国际顶级闭源模型。(1)知识储备:DeepSeek-V4-Pro-Max在SimpleQA-Verified基准上取得57.9分,大幅领先其他主流开源模型;中文SimpleQA得分达84.4,大幅缩小与Gemini-3.1-Pro的差距,MMLU-Pro、GPQA Diamond等教育知识基准均领跑开源赛道。(2)推理与代码能力:Pro-Max版本Codeforces评分达3206,位列人类选手排行榜第23名,LiveCodeBenchPass@1达93.5,IMOAnswerBench得分89.8仅略逊于GPT-5.4;Flash版本Codeforces评分也达到3052,推理性能追平GPT-5.2等闭源模型。(3)Agent能力:V4 Pro-Max的SWE-benchVerified任务解决分数达80.6,与Claude Opus 4.6基本持平,Terminal Bench 2.0、MCPAtlasPublic等基准均处于开源模型第一梯队。(4)长上下文能力:1M token场景下,MRCR、CorpusQA得分分别为83.5、62.0,超越Gemini-3.1-Pro,且128K上下文内检索能力保持高度稳定。(5)中文创作:其功能性写作对Gemini-3.1-Pro胜率达62.7%,创意写作质量胜率高达77.5%,仅在高难度多轮约束场景略逊于Claude Opus 4.5。 《Token时代下算力租赁行业重构》2026-04-14 ◼模型技术架构:CSA+HCA+mHC进一步压缩推理成本。(1)首创CSA+HCA交替的混合注意力架构。通过分层KV缓存压缩与稀疏注意力结合,在1M token上下文场景下,Pro版本单token推理FLOPs仅为V3.2的27%,KV缓存占用降至10%,Flash版本更是分别降至10%与7%,从底层解决了超长上下文的算力瓶颈;(2)引入mHC流形约束超连接升级传统残差结构,提升了深层模型的信号传播稳定性与表达能力,同时采用Muon优化器搭配预期性路由、SwiGLU钳制技术,解决了万亿参数MoE模型训练的Loss Spike难题;(3)采用领域专家独立训练+全词表在线蒸馏的后训练范式,规避了多能力融合的性能退化问题。 ◼投资建议:DeepSeek V4是大模型在训练侧使用国产算力从0到1的尝试。此前国产大模型采用国产算力均用于推理侧,而DeepSeek本次从模型内核到训练架构、到推理全流程均出现了国产算力的影子,是重要里程碑。因此,无论DeepSeek V4表现如何,战略意义均十分重要,对国产算力的训练适配前景才是关注的重点。国产算力相关标的:禾盛新材、寒武纪-U、海光信息、中科曙光、摩尔线程-U、沐曦股份-U、华丰科技、航天电器等,详见正文P17【投资建议】。 ◼风险提示:大模型迭代节奏不及预期;国产算力软硬件生态适配进度不及预期;大模型行业市场竞争持续加剧;行业政策监管持续趋严 内容目录 2.1. MXFP4量化感知训练:打破NVIDIA浮点生态强绑定.......................................................52.1.1.什么是MXFP4.................................................................................................................52.1.2. MXFP4在DeepSeek V4中的具体应用环节..................................................................52.1.3. MXFP4助力国产化适配的核心逻辑..............................................................................52.1.4. MXFP4当前存在的短板..................................................................................................62.2. TileLang领域专用语言:脱离CUDA生态的底层算子底座.................................................62.2.1.什么是TileLang...............................................................................................................62.2.2. DeepSeek采用TileLang的核心战略意义......................................................................72.3.自研MegaMoE2融合内核:解决国产硬件MoE通信瓶颈.................................................7 3.性能表现:跻身全球第一梯队,百万级上下文实现商用级突破..................................................8 3.1.知识储备:开源模型新标杆,大幅缩小与闭源模型差距.....................................................93.2.推理与代码能力:开源模型首次追平闭源头部水平.............................................................93.3. Agent能力:达到闭源模型同级水平,开源赛道第一梯队.................................................103.4.长上下文能力:百万token原生支持,解决长程任务核心瓶颈........................................103.5.中文创作能力:全面超越国际竞品,仅高难度场景略逊头部闭源模型...........................11 4.技术架构:底层创新实现效率与能力的双重突破........................................................................11 4.1. CSA+HCA混合注意力架构:彻底打破超长上下文的算力瓶颈........................................124.1.1. Compressed Sparse Attention(CSA,压缩稀疏注意力)..........................................134.1.2. Heavily Compressed Attention(HCA,重度压缩注意力)........................................144.1.3.混合注意力架构的设计价值.........................................................................................144.2. mHC流形约束超连接:升级残差结构,解决万亿模型训练稳定性难题..........................154.3.创新后训练范式:规避多能力融合的性能退化...................................................................15 5.综合评价:开源模型标杆,国产化战略意义远超性能表现........................................................16 7.风险提示............................................................................................................................................17 图表目录 图1:DeepSeek V4 Flash由昇腾参与训练,Pro正在进行国产算力训练适配...............................4图2:DeepSeek V4-Pro Max在各项指标上与主要竞争对手对比....................................................8图3:DeepSeek V4与其他竞争对手各项评分详细对比...................................................................9图4:DeepSeek V4系列内部各项指标横比.......................................................................................9图5:DeepSeek V4与V3.2的计算量对比........................................................................................12图6:DeepSeek V4与V3.2的显存容量对比....................................................................................12图7:DeepSeek V4保留Transformer架构和MTP模块,同时引入mHC、CSA+HCA............13图8:CSA的核心架构,系统将KV数量压缩至1/m倍,随后应用DSA机制进一步加速....14图9:DeepSeek V4价格,后续随昇腾950节点放量有望大幅下降.............................................16 1.与市场不同的观点:国产算力适配的探路者, 资本市场对DeepSeek的定位存在一定认知偏差,其核心定位已从挑战闭源模型,转向扛起开源龙头技术普惠与国产算力生态适配的使命。自DeepSeek V3.13.2版本起,其研发重心便从单一模型能力追赶,转向国产算力生态的底层适配与技术开源。模型训练端率先