AI智能总结
事项: 2025年2月24日至2025年2月28日,DeepSeek举行为期五天的“开源周”,连续开源五个软件库,旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。五个软件库向业界展示了一套重塑AI基础设施效率的全景方案,涵盖底层加速解码、专家并行通信、核心矩阵运算、分布式训练的流水线优化、数据处理系统的构建,共同构筑了一个面向大规模AI的高性能基石。 评论: 显存的“节流阀”:FlashMLA是一种专为NVIDIAHopper架构GPU优化的高效注意力解码内核,旨在提升大规模语言模型(LLM)在推理阶段的性能,尤其在处理可变长度序列时表现突出。FlashMLA能自行调配计算资源,通过动态资源分配优化显存使用,在H800集群上达到3000GB/s的内存限制性能和580TFLOPS的计算限制性能,实现了3倍显存利用率提升。 通信的“智能交通系统”:DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库,它解决了MoE的通信瓶颈,支持优化的全对全通信模式,使数据能够在各个节点间高效传输。 矩阵运算的“编译器”:DeepGEMM作为矩阵乘法加速库,为V3/R1的训练和推理提供支持。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术,将FP8引入GEMM内核,仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。DeepGEMM支持普通GEMM以及专家混合(MoE)分组GEMM,在HopperGPU上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优,且安装时无需编译,通过轻量级JIT模块在运行时编译所有内核。 并行训练的“指挥”:DualPipe和EPLB旨在解决大模型分布式训练中的并行调度和负载均衡问题。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法,通过实现向前与向后计算通信阶段的双向重叠,将硬件资源利用率提升超30%,减少资源浪费。EPLB是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化GPU间的负载分布,减少GPU闲置现象。 AI专属的分布式文件系统:3FS是一个专为AI训练和大数据处理设计的高性能并行分布式文件系统,能实现高速数据访问,提升AI模型训练和推理的效率。性能方面,3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量;在25节点集群的GraySort基准测试中达到3.66TiB/min的吞吐量;每个客户端节点在KVCache查找时可达到40+GiB/s的峰值吞吐量。 投资建议:Deepseek代码公布助力应用端加速落地,建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:京北方、宇信科技、天阳科技、神州信息、同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份; 9)创意:万兴科技、美图公司、虹软科技;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:卓易信息、优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、FlashMLA:显存的“节流阀” 依据序列长度动态调配计算资源,GPU性能大升级。2025年2月24日DeepSeek开源FlashMLA,这是一种专为NVIDIA Hopper架构GPU优化的高效注意力解码内核,旨在提升大规模语言模型(LLM)在推理阶段的性能,尤其在处理可变长度序列时表现突出。 图表1 DeepSeek开源FlashMLA 显存利用率提升。FlashMLA能自行调配计算资源,通过动态资源分配优化显存使用,在H800集群上达到3000GB/s的内存限制性能和580TFLOPS的计算限制性能,实现了3倍显存利用率提升。 图表2 MLA在推理过程中显著减少了KV缓存 二、DeepEP:通信的"智能交通系统" 高效通信库,解决MoE通信瓶颈。2025年2月25日DeepSeek开源DeepEP,这是首个用于MoE(混合专家模型)训练和推理的开源EP通信库。MoE模型在训练和推理中需要不同专家模型高效协作,这对通信效率要求极高。DeepEP解决了MoE的通信瓶颈,支持优化的全对全通信模式,使数据能够在各个节点间高效传输。 图表3 DeepSeek开源DeepEP 通信性能全面提升。在Hopper H800 GPU(NVLink带宽~160GB/s)加CX7 InfiniBand(400Gb/s, ~50GB/s带宽)的环境下,按照DeepSeek-V3/R1预训练设置,DeepEP的all-to-all通信带宽几乎达到NVLink和InfiniBand的硬件上限。在推理场景下(如每批128 tokens, top-8 experts),DeepEP的纯RDMA低延迟内核将延迟压缩在200微秒左右,通信性能大幅上升。 图表4 DeepEP普通内核性能评估 图表5 DeepEP低延迟内核性能评估 三、DeepGEMM:矩阵运算的“编译器” 通用矩阵乘法内核升级,模型运算实现降本增效。2025年2月26日DeepSeek开源DeepGEMM,作为矩阵乘法加速库,DeepGEMM为V3/R1的训练和推理提供支持。 DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术,将FP8引入GEMM内核,仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。 图表6 DeepSeek开源DeepGEMM 计算性能得到提升。DeepGEMM支持普通GEMM以及专家混合(MoE)分组GEMM,在HopperGPU上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优,且安装时无需编译,通过轻量级JIT模块在运行时编译所有内核。 图表7在普通GEMM中,DeepGEMM矩阵运算最高提速达到2.7倍 四、DualPipe和EPLB:并行训练的“指挥” 最大化硬件利用率,减少资源浪费。2025年2月27日DeepSeek开源DualPipe和EPLB,旨在解决大模型分布式训练中的并行调度和负载均衡问题。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法,通过实现向前与向后计算通信阶段的双向重叠,DualPipe将硬件资源利用率提升超30%,减少资源浪费。 图表8 DeepSeek开源DualPipe 图表9 DualPipe实现前向和后向计算通信阶段的完全重叠 EPLB是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化GPU间的负载分布,减少GPU闲置现象。 图表10 DeepSeek开源EPLB 五、3FS:AI专属的分布式文件系统 AI模型数据存储、读写能力全面提升。2025年2月28日DeepSeek开源了面向全数据访问的推进器3FS,即Fire-FlyerFileSystem。这是一个专为AI训练和大数据处理设计的高性能并行分布式文件系统,能实现高速数据访问,提升AI模型训练和推理的效率。 图表11 DeepSeek开源3FS 数据读取吞吐量刷新SOTA。性能方面,3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量;在25节点集群的GraySort基准测试中达到3.66TiB/min的吞吐量;每个客户端节点在KVCache查找时可达到40+GiB/s的峰值吞吐量。 图表12 3FS在大型集群上进行读取压力测试的吞吐量 图表13 3FS在所有KVCache客户端的读取吞吐量 采用EP策略,利润率显著上升。2025年3月1日DeepSeek介绍了DeepSeek-V3/R1的推理系统。DeepSeek-V3/R1的推理系统采用了跨节点专家并行(EP)驱动的批量扩展、计算-通信重叠、负载平衡来实现对吞吐量和延迟的优化,使每个H800节点实现了73.7k/14.8k个每秒输入/输出token,理论上成本利润率高达545%。 图表14 DeepSeek-V3/R1的成本与理论收入