本周观点
一、DeepSeek-V4上线并开源,百万上下文与Agent能力升级推升推理算力需求
- DeepSeek-V4发布,模型上下文处理长度扩展至1M,支持百万字超长上下文,输出长度最大为384K tokens。
- 首次增加KV Cache滑窗和压缩算法,减少Attention计算和访存开销,并通过模型架构创新更好支持Agent和Coding场景。
- DeepSeek-V4系列分为DeepSeek-V4-Pro和DeepSeek-V4-Flash两个版本,分别适用于复杂推理、Agent和高质量代码生成,以及高频调用、成本敏感和低时延场景。
- 国内开源大模型竞争重点转向长上下文处理、代码生成、工具调用和多步骤任务执行。
- 百万上下文、Agentic Coding和低成本API推动大模型竞争从模型参数和单项评测成绩转向“模型能力+推理效率+部署成本”的综合竞争。
- 办公Agent、代码Agent、企业知识库和具身Agent等场景扩张将提升推理侧Token消耗、调用次数和并发压力。
二、昇腾超节点全面支持DeepSeek-V4,国产算力从模型适配走向规模化推理验证
- 昇腾超节点全系列产品支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。
- 昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,结合多种量化算法,实现高吞吐、低时延的DeepSeek V4模型推理部署。
- 昇腾A3超节点系列产品全面适配,并提供基于昇腾A3超节点的训练参考实现。
- 国产算力适配进入“长上下文、低时延、高吞吐、可微调”的工程化验证阶段。
- 昇腾超节点通过高速互联、统一调度和软硬件协同,提升复杂模型在企业级和云端推理场景中的可部署性。
- 寒武纪、摩尔线程及FlagOS同步适配DeepSeek-V4,推动国产AI芯片、开源推理框架和模型服务之间形成更广泛协同。
- 国产算力建设从单点硬件替代走向“模型发布—芯片适配—推理框架优化—云端服务—行业应用”的协同链条。
三、投资建议
- 受益标的:国产芯片(寒武纪、海光信息、摩尔线程、沐曦股份)、国产算力产业链(盛科通信、华丰科技、航天电器、杰华特、意华股份、网宿科技、光环新网、优刻得、首都在线、利通电子、神州数码、烽火通信、浪潮信息、华勤技术)、国产大模型(智谱、Minimax)。
四、风险提示
- 核心技术水平升级不及预期的风险,AI伦理风险,政策推进不及预期的风险,中美贸易摩擦升级的风险。
五、关键数据
- DeepSeek-V4-Pro参数规模为1.6T,激活参数为49B;DeepSeek-V4-Flash参数规模为284B,激活参数为13B。
- DeepSeek V4-Pro在Agentic Coding评测中达到当前开源模型最佳水平,并在其他Agent相关评测中表现优异。
- 昇腾950超节点在8K输入场景下可实现TPOT约20ms时单卡Decode吞吐4700TPS。
- DeepSeek V4-Flash模型在8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。
- 基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型在8K/1K输入输出场景下,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐。
六、研究结论
- DeepSeek-V4发布推动国产算力生态协同,从单点硬件替代走向规模化推理验证。
- 国产算力竞争将更加依赖超节点架构、推理框架、软件生态、模型适配速度和单位Token成本。
- 百万上下文、Agentic Coding、办公Agent和具身Agent等场景扩张将提升推理侧算力需求。