您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:DS为国产芯片适配FP8精度国产AI的又一重要时刻1De - 发现报告

DS为国产芯片适配FP8精度国产AI的又一重要时刻1De

2025-08-22未知机构章***
DS为国产芯片适配FP8精度国产AI的又一重要时刻1De

【1】DeepSeek发布DS-V3.1,具备混合推理架构、更高的思考效率,以及更强的推理能力。 但更值得重视的是,DS-V3.1使用了UE8M0 FP8 Scale的参数精度,这是一种是针对即将发布的下一代国产芯片而设计的数据格式,对国产芯片的使用效率提升显著,将进一步缩小与NV芯片的效率/成本差距,大大增加国产芯片的可用性 【2】 DS为国产芯片适配FP8精度,国产AI的又一重要时刻 【1】DeepSeek发布DS-V3.1,具备混合推理架构、更高的思考效率,以及更强的推理能力。 但更值得重视的是,DS-V3.1使用了UE8M0 FP8 Scale的参数精度,这是一种是针对即将发布的下一代国产芯片而设计的数据格式,对国产芯片的使用效率提升显著,将进一步缩小与NV芯片的效率/成本差距,大大增加国产芯片的可用性 【2】FP8精度:E4M3、E5M2、UE8M0等多种格式都代表什么? 1)E4M3=1位符号+4位指数+3位尾数。 动态范围小,精度较高,就像一本“小本子”,能记细节,但容量有限、2)E5M2:1位符号+5位指数+2位尾数。 动态范围大,精度差,就像一张“粗略地图”,范围很广,但细节模糊、3)UE8M0:8位指数,没有符号和尾数,只能表示2^n倍数,非常适合存缩放因子、就像相机的调焦光圈,让画面(E4M3/E5M2)放大或者缩小,来适应相框(训练/推理)的需要、4)总结:计算/存储数值用E4M3/E5M2省算力和显存,缩放用UE8M0提高稳定性和生态兼容性 【3】UE8M0是怎么来的? 1)UE8M0首先出自NVIDIA PTX指令集,主要用来作为MXFP8训练推理中的缩放因子。 DS-V3/R1在对FP8稳定训练方面做出了突出贡献,并通过DeepGEMM这样的开源库把这种实现公开出来。 DeepGEMM的README就直接写了“SM100需要packed UE8M0缩放因子”,并提供了相应kernel,帮助整个生态在工程上落地、2)总结:NVIDIA提供了标准(UE8M0格式),而DeepSeek贡献了工程实现与大规模实践(DeepGEMM代码、FP8稳定训练方案) 【4】怎么看UE8M0-FP8对国产算力芯片的影响? 1)国产芯片要支持FP8,需要同时满足①芯片硬件在算子层面原生支持E4M3/E5M2和②支持UE8M0等FP8缩放标准、2)对原本只支持BF16/FP16精度的老芯片,可以通过FP8存储+转换BF16/FP16计算,节省显存/带宽、3)对未来新发布的原生支持FP8的国产芯片,即可享受满血版的算力/显存/带宽约2x的效率提升 【5】省流量结论:核心1:低精度训练可以提高吞吐量,降低内存与带宽消耗,强调了FP8等低精度训练的重要性、核心2:采用UE8M0 FP8可以帮助平衡FP8训练的动态范围和精度,在国产卡支持FP8精度的初期阶段,通过软件层的优化、带来国产卡FP8精度的调优与使用效率提升 【6】建议关注:寒武纪、芯原股份、昇腾链、中兴通讯、海光信息等国产算力标的