您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:AI的进击时刻系列8DEEPSEEKR1推理模型的云端和本地部署方案 - 发现报告

AI的进击时刻系列8DEEPSEEKR1推理模型的云端和本地部署方案

2025-02-23 未知机构 Bach🐮
报告封面

1、云端部署特点为高并发,完整版R1模型推理框架可采用PD分离,4节点prefill+40节点decode的8卡h800服务器,4M tokens/hour下,batch size并发约几万级别,大约可支持几十万的DAU。 2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形 AI的进击时刻系列8:DEEPSEEK-R1推理模型的云端和本地部署方案 1、云端部署特点为高并发,完整版R1模型推理框架可采用PD分离,4节点prefill+40节点decode的8卡h800服务器,4M tokens/hour下,batch size并发约几万级别,大约可支持几十万的DAU。 2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形式,百花齐放。 3、本地部署创新方案,清华大学KTransformers采用GPU/CPU协同计算,实现千亿参数模型在消费级硬件上的高效推理。 该团队正与Intel合作,针对Xeon6/MRDIMM平台进行进一步优化。