AI的进击时刻系列8: DEEPSEEK-R1推理模型的云端和本地部署方案1、云端部署特点为高并发,完整版 R1模型推理框架可采用PD分离,4节点prefill+40 节点decode的8卡 h800服务器,4M tokens/hour下, batch size并发约几万级别,大约可支持几十万的DAU。2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形 AI的进击时刻系列8: DEEPSEEK-R1推理模型的云端和本地部署方案1、云端部署特点为高并发,完整版 R1模型推理框架可采用PD分离,4节点prefill+40 节点decode的8卡 h800服务器,4M tokens/hour下, batch size并发约几万级别,大约可支持几十万的DAU。2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形式,百花齐放。3、本地部署创新方案,清华大学 KTransformers采用GPU/CPU协同计算,实现千亿参数模型在消费级硬件上的高效推理。该团队正与 Intel 合作,针对Xeon6/MRDIMM平台进行进一步优化。
1、云端部署特点为高并发,完整版R1模型推理框架可采用PD分离,4节点prefill+40节点decode的8卡h800服务器,4M tokens/hour下,batch size并发约几万级别,大约可支持几十万的DAU。
2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形
AI的进击时刻系列8:DEEPSEEK-R1推理模型的云端和本地部署方案
1、云端部署特点为高并发,完整版R1模型推理框架可采用PD分离,4节点prefill+40节点decode的8卡h800服务器,4M tokens/hour下,batch size并发约几万级别,大约可支持几十万的DAU。
2、本地部署特点为低并发,R1蒸馏模型大小各异,下游需求广泛,部署大多采用一体机的形式,百花齐放。
3、本地部署创新方案,清华大学KTransformers采用GPU/CPU协同计算,实现千亿参数模型在消费级硬件上的高效推理。
该团队正与Intel合作,针对Xeon6/MRDIMM平台进行进一步优化。