行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业深度报告：国产化训练从0到1里程碑，战略意义大于性能意义

信息技术 2026-04-30 王紫敬东吴证券飞鹤萘酚

核心观点： DeepSeek V4 在国产算力训练适配领域实现里程碑式突破，战略意义大于性能意义。模型首次由华为昇腾芯片参与训练，并通过 MXFP4 量化感知训练、TileLang 领域专用语言、自研 MegaMoE2 融合内核三大核心技术设计，实现去英伟达化的技术布局，为国产算力与大模型的协同发展奠定基础。
性能表现： DeepSeek V4 跃升全球第一梯队，多项核心指标比肩甚至超越国际顶级闭源模型。
- 知识储备： DeepSeek-V4-Pro-Max 在 SimpleQA-Verified 基准上取得 57.9 分，中文 SimpleQA 得分达 84.4，大幅缩小与 Gemini-3.1-Pro 的差距；MMLU-Pro、GPQA Diamond 等教育知识基准均领跑开源赛道。
- 推理与代码能力： Pro-Max 版本 Codeforces 评分达 3206，位列人类选手排行榜第 23 名，追平 GPT-5.4 等闭源模型；Flash 版本 Codeforces 评分也达到 3052，推理性能追平 GPT-5.2。
- Agent 能力： V4 Pro-Max 的 SWE-benchVerified 任务解决分数达 80.6，与 Claude Opus 4.6 基本持平，Terminal Bench 2.0、MCPAtlasPublic 等基准均处于开源模型第一梯队。
- 长上下文能力： 1M token 场景下，MRCR、CorpusQA 得分分别为 83.5、62.0，超越 Gemini-3.1-Pro，且 128K 上下文内检索能力保持高度稳定。
- 中文创作：功能性写作对 Gemini-3.1-Pro 胜率达 62.7%，创意写作质量胜率高达 77.5%，仅在高难度多轮约束场景略逊于 Claude Opus 4.5。
技术架构： DeepSeek V4 通过三大核心创新实现效率与能力的双重突破。
- CSA+HCA 混合注意力架构：首创 CSA+HCA 交替的混合注意力架构，将注意力计算复杂度从 O(n²) 降至 O(n)，解决超长上下文的算力瓶颈。
- mHC 流形约束超连接：引入 mHC 流形约束超连接升级传统残差结构，提升深层模型的信号传播稳定性与表达能力，解决万亿参数 MoE 模型训练的 Loss Spike 难题。
- 创新后训练范式：采用“领域专家独立训练+全词表在线蒸馏”的两阶段后训练范式，规避多能力融合的性能退化问题。
研究结论： DeepSeek V4 是开源模型标杆，国产化战略意义远超性能表现。模型在推理、代码能力上表现优异，更重要的是实现了百万级上下文支持、万亿参数模型的国产芯片训练适配，为国产大模型与国产算力的协同发展打开了全新空间。模型具备极高的商用性价比，Flash 版本定价仅 1 元/输入百万 token、2 元/输出百万 token，Pro 版本相较海外顶级闭源模型便宜约 60%。
投资建议： DeepSeek V4 的发布是国产通用大模型在国产算力训练侧从 0 到 1 的里程碑式突破，对国产算力生态的战略意义，都远大于模型本身的性能意义。国产算力产业链将迎来全新的发展机遇。
风险提示：大模型迭代节奏不及预期、国产算力软硬件生态适配进度不及预期、大模型行业市场竞争持续加剧、行业政策监管持续趋严。

国产化训练从0到1里程碑，战略意义大于性能意义 2026年04月30日证券分析师王紫敬执业证书：S0600521080005021-60199781wangzj@dwzq.com.cn 增持（维持） ◼重要意义：国产开源大模型在国产算力训练适配领域以及百万级上下文能力实现了里程碑式突破。 ◼DeepSeek V4首次由华为昇腾芯片参与训练。DeepSeek V4 Flash是首个公开说明训练侧使用国产算力的通用大模型，通过三大核心设计实现了去英伟达化的技术布局。（1）引入MXFP4量化感知训练，对MoE专家权重与索引器QK路径实现FP4量化，降低了对NVIDIA FP8生态的绑定，可无缝适配华为昇腾、寒武纪等国产芯片；（2）采用TileLang领域专用语言开发底层算子，脱离CUDA生态强绑定，可跨硬件平台编译，降低向国产芯片的迁移成本；（3）自研MegaMoE2融合内核，实现专家并行的细粒度通信计算重叠，已在华为昇腾平台完成适配跑通，解决了国产硬件环境下MoE模型的通信瓶颈。相关研究《Agent时代CPU迎来重新定位，国产CPU有望量价齐升）》2026-04-26 ◼性能表现：整体跻身全球第一梯队，多项核心指标比肩甚至超越国际顶级闭源模型。（1）知识储备：DeepSeek-V4-Pro-Max在SimpleQA-Verified基准上取得57.9分，大幅领先其他主流开源模型；中文SimpleQA得分达84.4，大幅缩小与Gemini-3.1-Pro的差距，MMLU-Pro、GPQA Diamond等教育知识基准均领跑开源赛道。（2）推理与代码能力：Pro-Max版本Codeforces评分达3206，位列人类选手排行榜第23名，LiveCodeBenchPass@1达93.5，IMOAnswerBench得分89.8仅略逊于GPT-5.4；Flash版本Codeforces评分也达到3052，推理性能追平GPT-5.2等闭源模型。（3）Agent能力：V4 Pro-Max的SWE-benchVerified任务解决分数达80.6，与Claude Opus 4.6基本持平，Terminal Bench 2.0、MCPAtlasPublic等基准均处于开源模型第一梯队。（4）长上下文能力：1M token场景下，MRCR、CorpusQA得分分别为83.5、62.0，超越Gemini-3.1-Pro，且128K上下文内检索能力保持高度稳定。（5）中文创作：其功能性写作对Gemini-3.1-Pro胜率达62.7%，创意写作质量胜率高达77.5%，仅在高难度多轮约束场景略逊于Claude Opus 4.5。《Token时代下算力租赁行业重构》2026-04-14 ◼模型技术架构：CSA+HCA+mHC进一步压缩推理成本。（1）首创CSA+HCA交替的混合注意力架构。通过分层KV缓存压缩与稀疏注意力结合，在1M token上下文场景下，Pro版本单token推理FLOPs仅为V3.2的27%，KV缓存占用降至10%，Flash版本更是分别降至10%与7%，从底层解决了超长上下文的算力瓶颈；（2）引入mHC流形约束超连接升级传统残差结构，提升了深层模型的信号传播稳定性与表达能力，同时采用Muon优化器搭配预期性路由、SwiGLU钳制技术，解决了万亿参数MoE模型训练的Loss Spike难题；（3）采用领域专家独立训练+全词表在线蒸馏的后训练范式，规避了多能力融合的性能退化问题。 ◼投资建议：DeepSeek V4是大模型在训练侧使用国产算力从0到1的尝试。此前国产大模型采用国产算力均用于推理侧，而DeepSeek本次从模型内核到训练架构、到推理全流程均出现了国产算力的影子，是重要里程碑。因此，无论DeepSeek V4表现如何，战略意义均十分重要，对国产算力的训练适配前景才是关注的重点。国产算力相关标的：禾盛新材、寒武纪-U、海光信息、中科曙光、摩尔线程-U、沐曦股份-U、华丰科技、航天电器等，详见正文P17【投资建议】。 ◼风险提示：大模型迭代节奏不及预期；国产算力软硬件生态适配进度不及预期；大模型行业市场竞争持续加剧；行业政策监管持续趋严内容目录 2.1. MXFP4量化感知训练：打破NVIDIA浮点生态强绑定.......................................................52.1.1.什么是MXFP4.................................................................................................................52.1.2. MXFP4在DeepSeek V4中的具体应用环节..................................................................52.1.3. MXFP4助力国产化适配的核心逻辑..............................................................................52.1.4. MXFP4当前存在的短板..................................................................................................62.2. TileLang领域专用语言：脱离CUDA生态的底层算子底座.................................................62.2.1.什么是TileLang...............................................................................................................62.2.2. DeepSeek采用TileLang的核心战略意义......................................................................72.3.自研MegaMoE2融合内核：解决国产硬件MoE通信瓶颈.................................................7 3.性能表现：跻身全球第一梯队，百万级上下文实现商用级突破..................................................8 3.1.知识储备：开源模型新标杆，大幅缩小与闭源模型差距.....................................................93.2.推理与代码能力：开源模型首次追平闭源头部水平.............................................................93.3. Agent能力：达到闭源模型同级水平，开源赛道第一梯队.................................................103.4.长上下文能力：百万token原生支持，解决长程任务核心瓶颈........................................103.5.中文创作能力：全面超越国际竞品，仅高难度场景略逊头部闭源模型...........................11 4.技术架构：底层创新实现效率与能力的双重突破........................................................................11 4.1. CSA+HCA混合注意力架构：彻底打破超长上下文的算力瓶颈........................................124.1.1. Compressed Sparse Attention（CSA，压缩稀疏注意力）..........................................134.1.2. Heavily Compressed Attention（HCA，重度压缩注意力）........................................144.1.3.混合注意力架构的设计价值.........................................................................................144.2. mHC流形约束超连接：升级残差结构，解决万亿模型训练稳定性难题..........................154.3.创新后训练范式：规避多能力融合的性能退化...................................................................15 5.综合评价：开源模型标杆，国产化战略意义远超性能表现........................................................16 7.风险提示............................................................................................................................................17 图表目录图1：DeepSeek V4 Flash由昇腾参与训练，Pro正在进行国产算力训练适配...............................4图2：DeepSeek V4-Pro Max在各项指标上与主要竞争对手对比....................................................8图3：DeepSeek V4与其他竞争对手各项评分详细对比...................................................................9图4：DeepSeek V4系列内部各项指标横比.......................................................................................9图5：DeepSeek V4与V3.2的计算量对比........................................................................................12图6：DeepSeek V4与V3.2的显存容量对比....................................................................................12图7：DeepSeek V4保留Transformer架构和MTP模块，同时引入mHC、CSA+HCA............13图8：CSA的核心架构，系统将KV数量压缩至1/m倍，随后应用DSA机制进一步加速....14图9：DeepSeek V4价格，后续随昇腾950节点放量有望大幅下降.............................................16 1.与市场不同的观点：国产算力适配的探路者，资本市场对DeepSeek的定位存在一定认知偏差，其核心定位已从挑战闭源模型，转向扛起开源龙头技术普惠与国产算力生态适配的使命。自DeepSeek V3.13.2版本起，其研发重心便从单一模型能力追赶，转向国产算力生态的底层适配与技术开源。模型训练端率先

点击免费查看完整报告

计算机行业深度报告：国产化训练从0到1里程碑，战略意义大于性能意义

你可能感兴趣

光伏设备行业深度报告：电镀铜即将开启产业化进程，从0到1设备商率先受益

电力设备及新能源行业深度报告：钙钛矿东风渐起，产业化进程从0到1

计算机行业：“人工智能+安防”：“从0到1”向“从1到N”聚变，技术为重、渠道为王

【风口研报·公司】2024年关联交易或大增56%，这家稀缺龙头深耕PLC工控软硬件机器人AI大模型、从0到1国产化空间大，核心受益《推动工业领域设备更新实施方案》

新能源发电行业深度研究：光热发电“从0到1”爆发在即，千亿规模“盛宴”开局

钠离子电池行业深度研究报告：钠电池从0到1征程开启，推动电池空间第三次跃迁

【光伏设备行业深度】电镀铜即将开启产业化进程，从0到1设备商率先受益【东吴机械】

深度报告：从0到1，中硼硅成长新势力

首次覆盖深度报告：从0到1向N，重组胶原蛋白注射级医疗器械龙头正在崛起

国金计算机科技天数智芯订单确定性PO在即看好CSP从0到1