行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

计算机行业：国产AI，核心主线

信息技术 2025-08-24 财通证券王泰华

核心观点

DeepSeek-V3.1架构创新：采用6850亿参数与混合专家架构（MoE），支持128K超长上下文窗口，预训练阶段新增840B tokens数据，强化工具调用能力。通过思维链压缩训练和MoE稀疏激活机制，单次推理仅用约160亿参数，大幅降低计算开销。在SWE-bench、Terminal-Bench、Browsecomp等测试中成绩大幅提升，输出tokens减少20%-50%仍保性能。
UE8M0 FP8 Scale：DeepSeek助力国产芯片对齐国际标准，采用“UE8M0 FP8 Scale”数据格式进行训练，既对齐OCP MX规范与Blackwell原生支持，又通过工程封装兼容国产硬件，为国产算力兼容提供技术缓冲。
国产化崛起：中美H20芯片博弈加速国产替代，2025年Q2国产芯片市占率达38.7%。DeepSeek-V3.1的UE8M0FP8技术适配华为昇腾、昆仑芯等10家厂商，摩尔线程、沐曦等国产GPU企业冲刺IPO，获国家大基金680亿元及产业资本支持。中国AI加速卡市场国产份额已超40%，产业链形成“融资—研发—落地”正向循环。

关键数据

DeepSeek-V3.1参数规模：6850亿参数
DeepSeek-V3.1上下文窗口：128K
DeepSeek-V3.1预训练阶段新增数据：840B tokens
DeepSeek-V3.1单次推理参数：约160亿参数
DeepSeek-V3.1输出tokens减少：20%-50%
2025年Q2国产芯片市占率：38.7%
英伟达H20芯片2024年收入：120–150亿美元
摩尔线程2022-2024年营收复合增长率：208.44%
沐曦2022-2024年营收复合增长率：超四十倍
中国AI加速卡市场国产份额（2025上半年）：40%以上

研究结论

DeepSeek-V3.1通过架构创新和技术适配，实现效率与成本平衡，并推动国产AI生态从被动兼容转向主动定义标准。
中美H20芯片博弈加速国产替代进程，国产芯片阵营在技术突破上形成协同攻势，产业链形成“融资—研发—场景落地”的正向循环，正稳步走出一条独立于海外生态的可持续路径。

计算机证券研究报告行业专题报告/2025.08.24 核心观点投资评级:看好(维持) DeepSeek-V3.1架构创新实现系统性突破。DeepSeek-V3.1是新一代旗舰大模型，凭借架构创新实现能力突破。其采用6850亿参数与混合专家架构（MoE），支持128K超长上下文窗口，预训练阶段新增840Btokens数据（含大量Agent场景数据），强化工具调用能力。技术上，通过思维链压缩训练减少冗余、MoE稀疏激活机制（单次推理仅用约160亿参数）降计算开销。还升级混合推理架构，提升思考效率与Agent能力，编程、搜索智能体支持增强。测试中，其SWE-bench、Terminal-Bench、Browsecomp等成绩大幅提升，输出tokens减少20%-50%仍保性能，实现效率与成本平衡。 UE8M0 FP8 Scale：DeepSeek助力国产芯片对齐国际标准。UE8M0是OCP2023年发布的MX规范中，为AI运算设计的8位指数、无尾数编码方式，作低精度数据块级缩放因子，可避免训练中数值溢出/下溢，保障稳定性。MX规范将张量分块，块内低精度存储，块外配UE8M0编码缩放因子。英伟达Blackwell架构首现MX原生支持，降开销且MXFP8吞吐率较BF16提升约2倍。DeepSeek-V3.1采用“UE8M0FP8Scale”，既对齐标准适配Blackwell，又通过工程封装兼容国产硬件，还为国产算力兼容提供技术缓冲。分析师杨烨SAC证书编号：S0160522050001yangye01@ctsec.com 联系人陈梦笔chenmb01@ctsec.com 相关报告 1.《再谈国产AI应用的未来》2025-08-172.《7月车市运行日益平稳，理想首发VLA大模型》2025-08-123.《英伟达野望：以Lepton打造全球算力聚合平台》2025-08-10 H20 vs.国产芯片：国产化崛起的终极博弈。2025年4月，美对英伟达H20芯片对华出口实施管制，冻结其销售，该芯片曾是英伟达对华特供款，2024年贡献120-150亿美元收入，禁令致企业停单、英伟达库存滞销。此背景下，中国加速国产AI芯片替代：政策支持使2025Q2国产芯片市占率达38.7%；DeepSeek-V3.1的UE8M0FP8技术适配华为昇腾、昆仑芯等10家厂商；摩尔线程、沐曦等国产GPU企业冲刺IPO，获国家大基金680亿元及产业资本支持。目前中国AI加速卡市场国产份额超40%，产业链形成“融资—研发—落地”正向循环，走独立可持续路径。 ❖投资建议：见正文。 ❖风险提示：技术迭代不及预期的风险；商业化落地不及预期的风险；政策支持不及预期风险；全球宏观经济风险。内容目录 1DeepSeek-V3.1架构创新实现系统性突破................................................................42UE8M0 FP8 Scale：DeepSeek助力国产芯片对齐国际标准........................................52.1UE8M0与MX规范：标准演进与工程实践.............................................................52.2Blackwell首次实现对MX的原生硬件支持..............................................................62.3DeepSeek助力国产算力的工程化拓展..................................................................73H20 vs.国产芯片：国产化崛起的终极博弈................................................................83.1中美H20反复变化，争夺AI产业主导权的前哨战....................................................83.2昇腾、寒武纪、海光引领国产芯片技术突破，芯片独角兽纷纷启动IPO.........................93.2.1摩尔线程：全链条能力的六边形国产GPU..........................................................103.2.2沐曦股份：AMD技术背景并兼容CUDA，交付万卡级集群智算中心........................113.2.3燧原科技：腾讯第一大股东，FP8低精度计算实现训推一体化................................123.2.4壁仞科技：核心性能对标英伟达A100/H100.......................................................134投资建议.............................................................................................................13 5风险提示.............................................................................................................14 图表目录图1：DeepSeek-V3.1编程智能体测评.....................................................................4图2：DeepSeek-V3.1搜索智能体测评.....................................................................4图3：DeepSeek-V3.1-Think输出tokens数对比.....................................................5图4：MXFP8块扩展...............................................................................................6图5：BF 16、FP8及MXFP8不同训练场景下得分......................................................7图6：Blackwell新增FP8 block scale factor支持.......................................................7图7：DeepSeek FP8技术原理................................................................................7图8：摩尔线程部分产品...........................................................................................10图9：摩尔线程第三代MUSA软件栈.........................................................................11图10：沐曦业务布局.............................................................................................12图11：沐曦典型GPU基本组成架构.........................................................................12 图12：燧原S60推理芯片......................................................................................12图13：壁仞BIRENSUPA™架构软件开发平台...........................................................13 表1：三种FP8浮点数格式对比.................................................................................6表2：英伟达H20芯片博弈时间线..............................................................................8表3：头部国产芯片与英伟达芯片对比.........................................................................9 1DeepSeek-V3.1架构创新实现系统性突破新一代旗舰大模型DeepSeek-V3.1通过架构创新实现了多项能力的系统性突破。该模型采用6850亿参数规模与混合专家架构（MoE），支持128K超长上下文窗口。在预训练阶段，V3.1在V3基础上新增840Btokens数据（占原训练量5.7%），其中包含大量Agent场景数据，显著增强了工具调用能力。技术层面，模型通过思维链压缩训练减少冗余迭代，同时引入MoE稀疏激活机制，单次推理仅调用约160亿参数，大幅降低计算开销。这些创新使V3.1在保持模型性能的同时，实现了推理效率的质的飞跃。具体而言，与之前的模型相比，此次升级包含了以下变化： ⚫混合推理架构：一个模型同时支持思考模式与非思考模式；⚫更高的思考效率：相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短时间内给出答案；⚫更强的Agent能力：通过Post-Training优化，新模型在工具使用与智能体任务中的表现有较大提升。编程智能体支持全面增强，搜索智能体能力显著提升。与DeepSeek-V3-0324和DeepSeek-R1-0528相比，DeepSeek-V3.1在SWE-bench测试的成绩取得了全面提升，Verified和Multilingual部分分别由V3的45.4/29.3及R1的44.6/30.5提升至66.0/54.5，提升比例约47%/86%，Terminal-Bench成绩也由V3的13.3和R1的5.7提升至31.3，在代码修复测评SWE与命令行终端环境下的复杂任务测试中，DeepSeek-V3.1相比之前的DeepSeek系列模型有明显提高。在搜索智能体评测集中，与R1相比，DeepSeek-V3.1的多学科专家级难题测试（HLE）成绩由24.8提升至29.8，复杂搜索测试（Browsecomp）提升最为显著，已由8.9提升至30.0，中文测试版本Browsecomp_zh成绩也由先前的35.7提升了37.8%至49.2。在其余多项搜索评测指标得分中，DeepSeek-V3.1亦取得了较大进步，性能已全面领先DeepSeek-R1-0528。 V3.1-Think思维链压缩使其输出tokens数显著减少，思考效率得到提升。测试结果显示，经过思维链压缩训练后，V3.1-Think在输出token数减少约20%-50%的情况下，各项任务的平均表现与R1-0528持平。同时，DeepSeek-V3.1在非思考模式下的输出长度也得到了有效控制，相比于DeepSeek

点击免费查看完整报告

你可能感兴趣

计算机行业：国产AI，核心主线

核心观点

关键数据

研究结论

你可能感兴趣

计算机行业：AI应用商业化拐点已至，国产算力与应用双主线共振

【人工智能第一团队|民生计算机】国产AI算力主线再迎强劲政策信号事

计算机行业周观点：海外引领，国产算力为主线

科技行业周报：AI应用持续迭代，继续坚持国产算力主线

通信行业周报：科技行情AI算力主线，重视国产自主可控