您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国联民生证券]:动态更新报告:迎接DeepSeek“模算协同”机遇 - 发现报告

动态更新报告:迎接DeepSeek“模算协同”机遇

2026-04-21 - 国联民生证券 Andy Yang 杨敏
报告封面

迎接DeepSeek“模算协同”机遇 glmszqdatemark2026年04月21日 推荐维持评级当前价格:91.72元 中标湛江AI推理千卡集群项目,DeepSeek创始人家乡打造“国模国芯”深度融合的算力生态.2026年3月12日,云天励飞中标湛江市AI渗透之城新质生产力基础设施建设项目,该项目为全栈国产AI推理千卡集群,基于公司自研国产AI推理加速卡,推动DeepSeek等国产大模型在相关应用场景中的适配与部署。云天励飞中标此项目,项目建设的AI推理算力集群将围绕大模型推理任务需求进行系统设计。 本次AI推理算力集群将分三期建设,并将采用云天励飞自研的国产AI推理加速卡。一期项目将部署云天励飞X6000推理加速卡;未来将率先搭载公司最新一代芯片产品。公司未来将逐步推出针对Prefill阶段优化的芯片产品,以及面向Decode阶段低延迟需求的推理芯片。公司首款面向长上下文推理场景优化的Prefill芯片DeepVerse100预计将在2026年底前后完成流片,并计划在相关算力系统中开展部署。 分析师吕伟执业证书:S0590525110033邮箱:lvwei_yj@glms.com.cn 公司芯片积极适配DeepSeek,已在R1发布后,成为首批完成适配的国产芯片企业,目前也在积极准备DeepSeek V4适配工作。公司未来旗下的AI推理加速卡将全面承载DeepSeek大模型能力,赋能千行百业。公司此前在DeepSeek-R1发布后,便快速进行了适配,未来芯片体系有望进一步适配新型模型。 分析师陈安宇执业证书:S0590523080004邮箱:chenay@glms.com.cn 规划未来三代芯片,手握充足产能保障产品推出。公司未来三年规划了三代芯片产品:2026年,打造第一代超节点P芯片,面向百万级长上下文场景进行Prefill推理优化,算力水平对标Hopper架构;2027年,研发第一代超节点D芯片,聚焦Decode推理的低时延目标,算力水平对标Blackwell架构;2028年,推出第二代超节点D芯片,面向毫秒级推理时延目标进一步优化,带动Prefill与Decode性能提升,算力层面有望看齐下一代Rubin芯片。 面对不同场景需求,推出不同系列产品覆盖边缘全场景需求。DeepEdge10系列使 用 公 司 自 研 神 经 网 络 处 理 器NNP400T, 提 供 自8T-128T的 算 力。DeepEdge200为面向云端大模型推理的高性能SOC芯片,采用D2D的chiplet片上互联技术,实现单芯片算力的灵活可扩展,边缘侧场景全覆盖。 相关研究 1.云天励飞-U(688343.SH)公司事件点评:“龙虾”国产推理算力的核心受益者-2026/03/092.云天励飞-U(688343.SH)深度报告:算法芯片化助力,全产业链发展打造推理AI龙头-2025/09/30 投资建议:公司部署AI算力到应用全产业链,多项平台技术优势明显。此外,公司多方向开拓AI市场,通过企业级、消费级、行业级三方向渠道开拓,销售额增长显著。后续随着自研芯片及相关产品在云端推理市场,公司营收有望迎来快速增长。我们预计公司2025-2027年营业收入为13.08、15.84、19.36亿元,当前股价对应PS分别为25X、21X、17X,维持“推荐”评级。 风险提示:核心芯片产品销售不及预期,技术研发不及预期,端侧设备产品销售不及预期风险,单一大客户依赖风险。 目录 1中标湛江AI推理千卡集群项目,DeepSeek创始人家乡打造“国模国芯”深度融合的算力生态..............................32公司未来算力规划:推出大算力芯片迎接推理时代起量............................................................................................73现有算力储备:DeepEdge系列迎接应用带动边缘算力市场起量..........................................................................104算力行业近期变化:应用开发带动tokens消耗量激增,算力供需缺口持续扩大...................................................155盈利预测与投资建议.............................................................................................................................................186风险提示..............................................................................................................................................................21插图目录..................................................................................................................................................................23表格目录..................................................................................................................................................................23 1中标湛江AI推理千卡集群项目,DeepSeek创始人家乡打造“国模国芯”深度融合的算力生态 2026年3月12日,云天励飞中标湛江市AI渗透之城新质生产力基础设施建设项目,该项目为全栈国产AI推理千卡集群,基于公司自研国产AI推理加速卡,推动DeepSeek等国产大模型在相关应用场景中的适配与部署。云天励飞中标此项目,项目建设的AI推理算力集群将围绕大模型推理任务需求进行系统设计。项目整体建设完成后,将形成面向大模型推理任务的算力基础设施,为相关应用场景提供稳定的算力支撑。此次重点建设的AI推理集群,由云天励飞牵头承建,华为、中国移动等领军企业作为核心生态伙伴深度参与。 本项目中的AI推理算力集群将分三期建设,全部采用云天励飞自研的国产AI推理加速卡。采用“Prefill–Decode分离”的推理架构,下一代推理芯片计划在相关算力系统中开展部署。现阶段,业界普遍采用“Prefill–Decode分离”的推理架构,通过针对不同阶段的资源配置优化,提高整体系统运行效率。 在该架构下,Prefill阶段主要负责长上下文理解和计算,对算力和带宽需求较高;Decode阶段则持续生成Token,对系统延迟更加敏感。项目建设过程中,将结合不同阶段的特点进行算力资源配置和系统优化。 同时,随着模型上下文长度不断增加,大量中间状态需要以KV Cache形式存储。围绕这一特点,项目在系统设计中对计算、存储与网络之间的协同进行了优化,以提升数据访问效率和整体系统性能。 在网络架构方面,系统将采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信,并支持从单节点数十卡规模扩展至千卡级集群规模,以满足不同规模AI应用需求。 根据项目规划,本次AI推理算力集群将分三期建设,并将采用云天励飞自研的国产AI推理加速卡。一期项目将部署云天励飞X6000推理加速卡;未来将率先搭载公司最新一代芯片产品。公司未来将逐步推出针对Prefill阶段优化的芯片产品,以及面向Decode阶段低延迟需求的推理芯片。公司首款面向长上下文推理场景优化的Prefill芯片DeepVerse100预计将在2026年底前后完成流片,并计划在相关算力系统中开展部署。 公司芯片积极适配DeepSeek,已在R1发布后,成为首批完成适配的国产芯片企业,目前也在积极准备DeepSeek V4适配工作。公司未来旗下的AI推理加速卡将全面承载DeepSeek大模型能力,赋能千行百业。公司此前在DeepSeek-R1发布后,便快速进行了适配,未来芯片体系有望进一步适配新型模型。 2025年春节期间,云天励飞芯片团队完成DeepEdge10“算力积木”芯片平台与DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、 DeepSeek-R1-Distill-Llama-8、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B大模型、DeepSeek V3/R1 671B MoE大模型的适配。适配完成后,DeepEdge10芯片平台将在端、边、云全面支持DeepSeek全系列模型。 云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Onlinesoftmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。 资料来源:公司公众号,国联民生证券研究所 资料来源:公司公众号,国联民生证券研究所 Deepseek开源模型,推动“算法-芯片协同进化”,公司核心设计理念高度相似。Deepseek开源推理模型R1引起产业变革,低成本高效能的模型开源,推动了行业的整体发展。由于硬件GPU使用受限,Deepseek采用软件端技术创新提升训练效率,整体训练成本约为550万美元,仅为OpenAI o1开发费用的3%。Deepseek R1通过关键设计的奖励系统、训练模板、自进化现象,以及用于强化学习的核心算法GRPO,用低算力的GPU训练出了媲美OpenAI o1的模型,证实了在AI行业中,软件端算法的创新可弥补硬件端差异,也可推动行业整体发展并产生经济效应。云天励飞持续强调的算法芯片化,通过自定义指令集、处理器架构及工具链的协同设计,通过软件端的改良提升芯片能力,从而拓展推理应用市场。 2公司未来算力规划:推出大算力芯片迎接推理时代起量 公司于2月3日举办“大算力芯片战略前瞻会”,对外公布未来三年的大算力AI推理芯片战略布局。现阶段,国产算力市场呈现“训练追赶、推理超车”,云天聚焦推理赛道,发布了基于“PD分离”思路的芯片路线图:力争实现百万Tokens推理成本降低100倍以上的目标。公司认为训练芯片更侧重“绝对值”,对算力规模、带宽能力以及科学计算的复杂精度要求更高,且对成本相对不敏感;推理芯片的核心考量则在于成本、效率与市场经济学,关键在于每一个Token背后的边际成本与整体性价比。 公司致力于持续降低百万Token的成本,目标是通过下一代芯片实现“百万Tokens一分钱”。未来,公司希望将成本进一步降至“百亿Tokens 1分钱”公司未来按照“PD分离”的系统架构规划两类大算力芯片:P芯片(Prefill):面向计算密集型需求设计,满足Prefill阶段的高算力要求;D芯片(Decode):面向访存密集型需求设计,满足Decode