行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

DS为国产芯片适配FP8精度国产AI的又一重要时刻1De

2025-08-22 未知机构章嘉艺

DeepSeek发布DS-V3.1模型，采用混合推理架构和UE8M0 FP8 Scale参数精度，显著提升思考效率和推理能力。核心亮点在于UE8M0 FP8精度的应用，该格式专为国产芯片设计，能有效提升国产芯片使用效率，缩小与NV芯片的效率/成本差距。

FP8精度详解：

E4M3：1位符号+4位指数+3位尾数，动态范围小，精度高。
E5M2：1位符号+5位指数+2位尾数，动态范围大，精度差。
UE8M0：8位指数，无符号和尾数，表示2^n倍数，用于缩放因子，提高稳定性和生态兼容性。

UE8M0来源：

源自NVIDIA PTX指令集，用于MXFP8缩放因子。
DeepSeek通过DeepGEMM开源库实现FP8稳定训练，推动生态落地。

对国产算力芯片的影响：

国产芯片需支持E4M3/E5M2算子及UE8M0缩放标准。
老芯片可通过FP8存储+BF16/FP16计算节省显存/带宽。
新芯片原生支持FP8可提升约2x的算力/显存/带宽效率。

研究结论：

低精度训练（FP8）可提高吞吐量，降低内存与带宽消耗。
UE8M0 FP8平衡动态范围和精度，提升国产卡FP8使用效率。

建议关注：寒武纪、芯原股份、昇腾链、中兴通讯、海光信息等国产算力标的。

【1】DeepSeek发布DS-V3.1，具备混合推理架构、更高的思考效率，以及更强的推理能力。但更值得重视的是，DS-V3.1使用了UE8M0 FP8 Scale的参数精度，这是一种是针对即将发布的下一代国产芯片而设计的数据格式，对国产芯片的使用效率提升显著，将进一步缩小与NV芯片的效率/成本差距，大大增加国产芯片的可用性【2】 DS为国产芯片适配FP8精度，国产AI的又一重要时刻【1】DeepSeek发布DS-V3.1，具备混合推理架构、更高的思考效率，以及更强的推理能力。但更值得重视的是，DS-V3.1使用了UE8M0 FP8 Scale的参数精度，这是一种是针对即将发布的下一代国产芯片而设计的数据格式，对国产芯片的使用效率提升显著，将进一步缩小与NV芯片的效率/成本差距，大大增加国产芯片的可用性【2】FP8精度：E4M3、E5M2、UE8M0等多种格式都代表什么？ 1）E4M3=1位符号+4位指数+3位尾数。动态范围小，精度较高，就像一本“小本子”，能记细节，但容量有限、2)E5M2：1位符号+5位指数+2位尾数。动态范围大，精度差，就像一张“粗略地图”，范围很广，但细节模糊、3）UE8M0：8位指数，没有符号和尾数，只能表示2^n倍数，非常适合存缩放因子、就像相机的调焦光圈，让画面（E4M3/E5M2）放大或者缩小，来适应相框（训练/推理）的需要、4）总结：计算/存储数值用E4M3/E5M2省算力和显存，缩放用UE8M0提高稳定性和生态兼容性【3】UE8M0是怎么来的？ 1）UE8M0首先出自NVIDIA PTX指令集，主要用来作为MXFP8训练推理中的缩放因子。 DS-V3/R1在对FP8稳定训练方面做出了突出贡献，并通过DeepGEMM这样的开源库把这种实现公开出来。 DeepGEMM的README就直接写了“SM100需要packed UE8M0缩放因子”，并提供了相应kernel，帮助整个生态在工程上落地、2）总结：NVIDIA提供了标准（UE8M0格式），而DeepSeek贡献了工程实现与大规模实践（DeepGEMM代码、FP8稳定训练方案）【4】怎么看UE8M0-FP8对国产算力芯片的影响？ 1）国产芯片要支持FP8，需要同时满足①芯片硬件在算子层面原生支持E4M3/E5M2和②支持UE8M0等FP8缩放标准、2）对原本只支持BF16/FP16精度的老芯片，可以通过FP8存储+转换BF16/FP16计算，节省显存/带宽、3）对未来新发布的原生支持FP8的国产芯片，即可享受满血版的算力/显存/带宽约2x的效率提升【5】省流量结论：核心1：低精度训练可以提高吞吐量，降低内存与带宽消耗，强调了FP8等低精度训练的重要性、核心2：采用UE8M0 FP8可以帮助平衡FP8训练的动态范围和精度，在国产卡支持FP8精度的初期阶段，通过软件层的优化、带来国产卡FP8精度的调优与使用效率提升【6】建议关注：寒武纪、芯原股份、昇腾链、中兴通讯、海光信息等国产算力标的

点击免费查看完整报告

DS为国产芯片适配FP8精度国产AI的又一重要时刻1De

你可能感兴趣

DS为国产芯片适配FP8精度国产AI的又一重要时刻1DeepSee

【电报解读】华为云6月即将发布AI基础设施新品！机构称超节点技术正成为国产算力的重要新增量，这家公司适配于各传输节点上传输速率为224g的相关产品正逐步推出，并已成为华为-20260415

【盘中宝】有望成为AI应用的重要载体，行业多款AI新品放量在即，这家公司为市场上多款主流品牌提供该领域定制性适配方案

计算机行业周点评：腾讯云全面适配主流国产AI芯片

AI算力投资与变革加速，智谱GLM-5适配主流国产芯片

计算行业月报：国产 AI 芯片实现重要突破，积极关注 5 月鸿蒙 PC 问世

计算机行业月报：AI应用大发展令算力总体供不应求，国产AI芯片厂商迎来重要发展机遇

民生计算机重视华为昇腾重要进展国产AI芯片大规模应用拐点

计算机双王DS采用UE8M0FP8Scale支持下一代国产芯片国产大

【财联社早知道】炸裂！这家芯片公司一季度净利预增10倍，扣非净利预增超700倍；超越KIMI！又一AI爆款应用出现，这家公司是其官宣合作伙伴，公司搭建了图片及场景等多模态的AIGC数字工具矩阵-20240410