行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI的进击时刻系列8DEEPSEEKR1推理模型的云端和本地部署方案

2025-02-23 未知机构 Bach🐮

AI的进击时刻系列8： DEEPSEEK-R1推理模型的云端和本地部署方案1、云端部署特点为高并发，完整版 R1模型推理框架可采用PD分离，4节点prefill+40 节点decode的8卡 h800服务器，4M tokens/hour下， batch size并发约几万级别，大约可支持几十万的DAU。2、本地部署特点为低并发，R1蒸馏模型大小各异，下游需求广泛，部署大多采用一体机的形 AI的进击时刻系列8： DEEPSEEK-R1推理模型的云端和本地部署方案1、云端部署特点为高并发，完整版 R1模型推理框架可采用PD分离，4节点prefill+40 节点decode的8卡 h800服务器，4M tokens/hour下， batch size并发约几万级别，大约可支持几十万的DAU。2、本地部署特点为低并发，R1蒸馏模型大小各异，下游需求广泛，部署大多采用一体机的形式，百花齐放。3、本地部署创新方案，清华大学 KTransformers采用GPU/CPU协同计算，实现千亿参数模型在消费级硬件上的高效推理。该团队正与 Intel 合作，针对Xeon6/MRDIMM平台进行进一步优化。

1、云端部署特点为高并发，完整版R1模型推理框架可采用PD分离，4节点prefill+40节点decode的8卡h800服务器，4M tokens/hour下，batch size并发约几万级别，大约可支持几十万的DAU。 2、本地部署特点为低并发，R1蒸馏模型大小各异，下游需求广泛，部署大多采用一体机的形 AI的进击时刻系列8：DEEPSEEK-R1推理模型的云端和本地部署方案 1、云端部署特点为高并发，完整版R1模型推理框架可采用PD分离，4节点prefill+40节点decode的8卡h800服务器，4M tokens/hour下，batch size并发约几万级别，大约可支持几十万的DAU。 2、本地部署特点为低并发，R1蒸馏模型大小各异，下游需求广泛，部署大多采用一体机的形式，百花齐放。 3、本地部署创新方案，清华大学KTransformers采用GPU/CPU协同计算，实现千亿参数模型在消费级硬件上的高效推理。该团队正与Intel合作，针对Xeon6/MRDIMM平台进行进一步优化。

点击免费查看完整报告

AI的进击时刻系列8DEEPSEEKR1推理模型的云端和本地部署方案

你可能感兴趣

电子元器件行业系列四：加速端侧AI推广落地，Deepseek本地部署加速端侧AI推广落地

电子行业2026年投资策略：从云端算力国产化到端侧AI爆发，电子行业的戴维斯双击时刻

国君电子|本地模型部署需求爆发,AIPC换机加速 ——系列六Deepseek对PC的影响

中国半导体：MetaX管理层电话会议要点：领先的本地GPU，具备自研IP和全栈解决方案以实现高效部署

腾讯会议本地部署方案：重构企业安全协同新生态

生成式AI总拥有成本(TCO)比较：本地部署与云服务

基于AI大模型的医药知识工程系统部署方案

风口研报·公司：浦东新区综改方案出台，公司是本地营业网点最多的金融机构之一且股东均为国资委和旗下国有企业

本地知识库的配置与应用：量化看市场系列之十二：让AI更懂你

关于 IMT - 2020 的 NGMN 要求度量和部署方案的进一步阐述

AI的进击时刻系列8DEEPSEEKR1推理模型的云端和本地部署方案

你可能感兴趣

电子元器件行业系列四：加速端侧AI推广落地，Deepseek本地部署加速端侧AI推广落地

电子行业2026年投资策略：从云端算力国产化到端侧AI爆发，电子行业的戴维斯双击时刻

国君电子|本地模型部署需求爆发,AIPC换机加速 ——系列六Deepseek对PC的影响

中国半导体：MetaX管理层电话会议要点：领先的本地GPU，具备自研IP和全栈解决方案以实现高效部署

腾讯会议本地部署方案： 重构企业安全协同新生态

生成式AI总拥有成本(TCO)比较：本地部署与云服务

基于AI大模型的医药知识工程系统部署方案

风口研报·公司：浦东新区综改方案出台，公司是本地营业网点最多的金融机构之一且股东均为国资委和旗下国有企业

本地知识库的配置与应用：量化看市场系列之十二：让AI更懂你

关于 IMT - 2020 的 NGMN 要求度量和部署方案的进一步阐述

腾讯会议本地部署方案：重构企业安全协同新生态