您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [财通证券]:计算机行业:国产AI,核心主线 - 发现报告

计算机行业:国产AI,核心主线

信息技术 2025-08-24 财通证券 王泰华
报告封面

计算机 证券研究报告 行业专题报告/2025.08.24 核心观点 投资评级:看好(维持) DeepSeek-V3.1架构创新实现系统性突破。DeepSeek-V3.1是新一代旗舰大模型,凭借架构创新实现能力突破。其采用6850亿参数与混合专家架构(MoE),支持128K超长上下文窗口,预训练阶段新增840Btokens数据(含大量Agent场景数据),强化工具调用能力。技术上,通过思维链压缩训练减少冗余、MoE稀疏激活机制(单次推理仅用约160亿参数)降计算开销。还升级混合推理架构,提升思考效率与Agent能力,编程、搜索智能体支持增强。测试中,其SWE-bench、Terminal-Bench、Browsecomp等成绩大幅提升,输出tokens减少20%-50%仍保性能,实现效率与成本平衡。 UE8M0 FP8 Scale:DeepSeek助力国产芯片对齐国际标准。UE8M0是OCP2023年发布的MX规范中,为AI运算设计的8位指数、无尾数编码方式,作低精度数据块级缩放因子,可避免训练中数值溢出/下溢,保障稳定性。MX规范将张量分块,块内低精度存储,块外配UE8M0编码缩放因子。英伟达Blackwell架构首现MX原生支持,降开销且MXFP8吞吐率较BF16提升约2倍。DeepSeek-V3.1采用“UE8M0FP8Scale”,既对齐标准适配Blackwell,又通过工程封装兼容国产硬件,还为国产算力兼容提供技术缓冲。 分析师杨烨SAC证书编号:S0160522050001yangye01@ctsec.com 联系人陈梦笔chenmb01@ctsec.com 相关报告 1.《再谈国产AI应用的未来》2025-08-172.《7月车市运行日益平稳,理想首发VLA大模型》2025-08-123.《英伟达野望:以Lepton打造全球算力聚合平台》2025-08-10 H20 vs.国产芯片:国产化崛起的终极博弈。2025年4月,美对英伟达H20芯片对华出口实施管制,冻结其销售,该芯片曾是英伟达对华特供款,2024年贡献120-150亿美元收入,禁令致企业停单、英伟达库存滞销。此背景下,中国加速国产AI芯片替代:政策支持使2025Q2国产芯片市占率达38.7%;DeepSeek-V3.1的UE8M0FP8技术适配华为昇腾、昆仑芯等10家厂商;摩尔线程、沐曦等国产GPU企业冲刺IPO,获国家大基金680亿元及产业资本支持。目前中国AI加速卡市场国产份额超40%,产业链形成“融资—研发—落地”正向循环,走独立可持续路径。 ❖投资建议:见正文。 ❖风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 内容目录 1DeepSeek-V3.1架构创新实现系统性突破................................................................42UE8M0 FP8 Scale:DeepSeek助力国产芯片对齐国际标准........................................52.1UE8M0与MX规范:标准演进与工程实践.............................................................52.2Blackwell首次实现对MX的原生硬件支持..............................................................62.3DeepSeek助力国产算力的工程化拓展..................................................................73H20 vs.国产芯片:国产化崛起的终极博弈................................................................83.1中美H20反复变化,争夺AI产业主导权的前哨战....................................................83.2昇腾、寒武纪、海光引领国产芯片技术突破,芯片独角兽纷纷启动IPO.........................93.2.1摩尔线程:全链条能力的六边形国产GPU..........................................................103.2.2沐曦股份:AMD技术背景并兼容CUDA,交付万卡级集群智算中心........................113.2.3燧原科技:腾讯第一大股东,FP8低精度计算实现训推一体化................................123.2.4壁仞科技:核心性能对标英伟达A100/H100.......................................................134投资建议.............................................................................................................13 5风险提示.............................................................................................................14 图表目录 图1:DeepSeek-V3.1编程智能体测评.....................................................................4图2:DeepSeek-V3.1搜索智能体测评.....................................................................4图3:DeepSeek-V3.1-Think输出tokens数对比.....................................................5图4:MXFP8块扩展...............................................................................................6图5:BF 16、FP8及MXFP8不同训练场景下得分......................................................7图6:Blackwell新增FP8 block scale factor支持.......................................................7图7:DeepSeek FP8技术原理................................................................................7图8:摩尔线程部分产品...........................................................................................10图9:摩尔线程第三代MUSA软件栈.........................................................................11图10:沐曦业务布局.............................................................................................12图11:沐曦典型GPU基本组成架构.........................................................................12 图12:燧原S60推理芯片......................................................................................12图13:壁仞BIRENSUPA™架构软件开发平台...........................................................13 表1:三种FP8浮点数格式对比.................................................................................6表2:英伟达H20芯片博弈时间线..............................................................................8表3:头部国产芯片与英伟达芯片对比.........................................................................9 1DeepSeek-V3.1架构创新实现系统性突破 新一代旗舰大模型DeepSeek-V3.1通过架构创新实现了多项能力的系统性突破。该模型采用6850亿参数规模与混合专家架构(MoE),支持128K超长上下文窗口。在预训练阶段,V3.1在V3基础上新增840Btokens数据(占原训练量5.7%),其中包含大量Agent场景数据,显著增强了工具调用能力。技术层面,模型通过思维链压缩训练减少冗余迭代,同时引入MoE稀疏激活机制,单次推理仅调用约160亿参数,大幅降低计算开销。这些创新使V3.1在保持模型性能的同时,实现了推理效率的质的飞跃。具体而言,与之前的模型相比,此次升级包含了以下变化: ⚫混合推理架构:一个模型同时支持思考模式与非思考模式;⚫更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;⚫更强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。 编程智能体支持全面增强,搜索智能体能力显著提升。与DeepSeek-V3-0324和DeepSeek-R1-0528相比,DeepSeek-V3.1在SWE-bench测试的成绩取得了全面提升,Verified和Multilingual部分分别由V3的45.4/29.3及R1的44.6/30.5提升至66.0/54.5,提升比例约47%/86%,Terminal-Bench成绩也由V3的13.3和R1的5.7提升至31.3,在代码修复测评SWE与命令行终端环境下的复杂任务测试中,DeepSeek-V3.1相比之前的DeepSeek系列模型有明显提高。在搜索智能体评测集中,与R1相比,DeepSeek-V3.1的多学 科 专 家 级 难 题 测 试 (HLE)成 绩 由24.8提 升 至29.8,复 杂 搜 索 测 试(Browsecomp)提 升最 为 显著 ,已 由8.9提升 至30.0,中 文测 试版本Browsecomp_zh成绩也由先前的35.7提升了37.8%至49.2。在其余多项搜索评测指标得分中,DeepSeek-V3.1亦取得了较大进步,性能已全面领先DeepSeek-R1-0528。 V3.1-Think思维链压缩使其输出tokens数显著减少,思考效率得到提升。测试结果显示,经过思维链压缩训练后,V3.1-Think在输出token数减少约20%-50%的情况下,各项任务的平均表现与R1-0528持平。同时,DeepSeek-V3.1在非思考模式下的输出长度也得到了有效控制,相比于DeepSeek