AI智能总结
GPU之间为提升MoE模型的通信效率,DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP,优化了节点内和跨节点的all-to-all通信,具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核: (1)高吞吐内核:训练/prefill场景下动态融合NVLink( 【广发电子】deepseek用于MoE模型训练和推理的EP通信库DeepEP———————————— GPU之间为提升MoE模型的通信效率,DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP,优化了节点内和跨节点的all-to-all通信,具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核: (1)高吞吐内核:训练/prefill场景下动态融合NVLink(节点内)与RDMA(跨节点)带宽,NVLink速度可达153-158GB/s,RDMA速度43-47GB/s。 (2)低延迟内核:推理场景下,通过纯RDMA通信+计算-通信重叠技术,解码延迟压至200微秒内,支持实时交互应用。 在DeepEP通信库下,直接通过RDMA通信即可实现模型推理加速,推荐关注国产算力、以太网和PCIe链接产业链。