您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:广发电子deepseek用于MoE模型训练和推理的EP通信库Dee - 发现报告

广发电子deepseek用于MoE模型训练和推理的EP通信库Dee

2025-02-25未知机构何***
广发电子deepseek用于MoE模型训练和推理的EP通信库Dee

GPU之间为提升MoE模型的通信效率,DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP,优化了节点内和跨节点的all-to-all通信,具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核: (1)高吞吐内核:训练/prefill场景下动态融合NVLink( 【广发电子】deepseek用于MoE模型训练和推理的EP通信库DeepEP———————————— GPU之间为提升MoE模型的通信效率,DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP,优化了节点内和跨节点的all-to-all通信,具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核: (1)高吞吐内核:训练/prefill场景下动态融合NVLink(节点内)与RDMA(跨节点)带宽,NVLink速度可达153-158GB/s,RDMA速度43-47GB/s。 (2)低延迟内核:推理场景下,通过纯RDMA通信+计算-通信重叠技术,解码延迟压至200微秒内,支持实时交互应用。 在DeepEP通信库下,直接通过RDMA通信即可实现模型推理加速,推荐关注国产算力、以太网和PCIe链接产业链。