行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

广发电子deepseek用于MoE模型训练和推理的EP通信库Dee

2025-02-25 未知机构何杰斌

DeepSeek开源了为MoE和EP设计的通信库DeepEP，旨在提升GPU间通信效率，优化节点内和跨节点的all-to-all通信，具备高吞吐和低延迟特性。

DeepEP主要包括两种内核：

高吞吐内核：适用于训练/prefill场景，动态融合NVLink（节点内，速度可达153-158GB/s）与RDMA（跨节点，速度43-47GB/s）带宽。
低延迟内核：适用于推理场景，通过纯RDMA通信+计算-通信重叠技术，解码延迟压至200微秒内，支持实时交互应用。

在DeepEP通信库下，直接通过RDMA通信即可实现模型推理加速。推荐关注国产算力、以太网和PCIe链接产业链。

报告封面

GPU之间为提升MoE模型的通信效率，DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP，优化了节点内和跨节点的all-to-all通信，具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核：（1）高吞吐内核：训练/prefill场景下动态融合NVLink（【广发电子】deepseek用于MoE模型训练和推理的EP通信库DeepEP———————————— GPU之间为提升MoE模型的通信效率，DeepSeek于今日开源了为MoE和EP设计的的通信库DeepEP，优化了节点内和跨节点的all-to-all通信，具备高吞吐和低延迟的特性。 DeepEP主要包括两种内核：（1）高吞吐内核：训练/prefill场景下动态融合NVLink（节点内）与RDMA（跨节点）带宽，NVLink速度可达153-158GB/s，RDMA速度43-47GB/s。（2）低延迟内核：推理场景下，通过纯RDMA通信+计算-通信重叠技术，解码延迟压至200微秒内，支持实时交互应用。在DeepEP通信库下，直接通过RDMA通信即可实现模型推理加速，推荐关注国产算力、以太网和PCIe链接产业链。

点击免费查看完整报告

你可能感兴趣

广发电子DEEPSEEK推出专为优化长文本训练与推理设计的注意力机制NSA

未知机构2025-02-18

电子行业先进科技主题周报-周观点：海外大厂发布Q4财报，DeepSeek降低训练与推理成本

电子设备上海证券2025-02-07

电子行业先进科技主题周报：周观点，海外大厂发布Q4财报，DeepSeek降低训练与推理成本

电子设备上海证券2025-02-07

通信行业点评：草莓模型公布，训练与推理共振光模块机会

信息技术德邦证券2024-09-17

通信周跟踪：DeepSeek发布推理系统概览，再论算力的上限和下限

信息技术山西证券2025-03-07

【电报解读】Sora模型推动Al多模态领域飞跃式发展，训练和推理将提升对算力基础设施需求，这家公司已向微软提供多种产品-20240219

未知机构2024-02-19

RecSys示例：HSTU模型训练和推理最佳实践

信息技术NVIDIA2025-05-30

算力重构：从模型训练迈向推理主导的新时代

信息技术东方证券2026-04-20

LLM后训练：对推理大型语言模型的深入研究

-2025-02-28

电子行业点评：Blackwell Ultra发布，加速训练和测试时扩展推理

电子设备太平洋证券2025-03-19