AI智能总结
投资逻辑: DeepSeek在知乎发布文章《DeepSeek-V3/R1推理系统概览》,披露其AI大模型的理论成本利润率高达545%,引发业内的热烈讨论。在本篇报告中,我们从以下三个角度:1)DeepSeek的底层架构优化;2)DeepSeek的利润率详细拆解;3)DeepSeek引发的算力需求之争,回应市场关心的问题。此外,当前市场针对算力之争多定性分析,本篇报告也旨在提供较完整的定量分析框架以供参考。 DeepSeek通过大规模专家并行与计算通信重叠提升算力效率: 大规模专家并行模式下,专家参数被存储在多个GPU中,集群处理并行请求能力得到增强,GPU算力资源利用率也得到了提高。但在此模式下,通信耗时增加,因此DeepSeek还采用算通信重叠策略以缓解该问题。我们认为AI大模型具有规模效应:通过底层架构优化后,伴随批量大小的增加,计算与通信的时间边际下降,吞吐率得到提升。因此大规模集群能提高算力利用率。 参考DeepSeek,我们认为MaaS厂商具有盈利潜力,率先实现规模效应的云厂商将脱颖而出: 我们对DeepSeek披露的545%高利润率进行了拆解,以进一步分析利润率的影响因素。545%是成本利润率,对应84.5%的收入利润率。将GPU租赁成本在总成本中的占比、付费率调至合理水平后,我们认为公司实际利润率或低于84.5%。 付费率对公司利润率影响较大,伴随付费率的提升,公司利润率有望持续攀升。若能将付费率提升至40%+,则公司的利润率有望达20%+。根据对DeepSeek的利润率分析,我们认为MaaS模式具有盈利潜力。拥有大规模集群、能形成高用户并发的公有云厂商有望形成规模效应。 针对算力之争,我们认为算力效率是新的ScalingLaw方向,多模态与AI Agent将打开算力的成长空间: 我们就DeepSeek的模型参数量、数据规模、峰值倍数、单卡算力、单卡利用率等关键指标进行了详细的拆解,发现DeepSeek低算力的原因在于:1)低峰值倍数:未设置较大的算力冗余(峰值倍数仅1.2),一定程度上牺牲了用户体验;2)超高的算力效率,具体体现在单次推理激活的模型参数量(单次推理仅激活370亿参数)、高单卡利用率(H800单卡利用率高达77%)。市场担心DeepSeek仅使用1814个H800就支持了约2500万DAU会证伪算力需求,但我们认为伴随峰值倍数的提高、数据规模的扩大,算力需求有望持续提升。高算力效率不等于算力通缩,“参数量*效率*数据规模”才是新的scalinglaw方向。从远期看,多品类APP接入AI大模型有望带来用户数的增长,多模态、AI Agent有望带来单次请求调用tokens数量的增加,这都将带动算力需求的提升。因此我们持续看好算力链。 投资建议与估值 我们认为算力需求将持续强劲,建议持续关注算力链板块。能实现大集群、形成高用户并发的公有云厂商有望率先实现规模效应,跑通MaaS盈利模式。我们看好能提供高安全可靠的云服务、并具有辐射全国的IDC资源的运营商云; 也看好具有丰富客户资源、集团内部生态赋能的互联网大厂云。深度参与算力产业链的国产芯片、交换机厂商也将持续受益。建议关注中国移动、中国联通、中兴通讯等。 风险提示 AI落地不及预期、芯片供应不足、客户对公有云接受度不及预期、行业竞争加剧 1、DeepSeek通过大规模专家并行(EP)与计算通信重叠(DP),大幅提升算力效率 DeepSeek-V3/R1模型采用高度稀疏的MoE架构,每层专家数量众多,包含256个专家,但每次前向传播仅激活其中的8个,导致大量其他专家处于闲置状态。如果批量大小(batchsize)不够大,每个专家处理的数据量会非常有限,带来计算资源利用不足、吞吐量低的问题。 为解决以上问题,DeepSeek采用大规模跨节点专家并行(EP)。EP通过显存资源解耦、计算负载重构等,将专家参数分布式存储在多个GPU中,使得被激活的专家能够分散到不同的GPU进行处理,由此提升了吞吐能力、GPU算力资源利用率也得到了提高。同时由于每个GPU仅处理一小部分专家,延迟也得到了降低。 图表1:DeepSeek-V3/R1采用了预填充-解码分离架构,有效提升算力效率 图表2:DeepSeek-V3/R1参考架构图 大规模跨节点专家并行(EP)带来较大通信开销,因此还采用计算通信重叠(DP)以缓解这一问题。在EP模式下,跨节点数据传输会引入额外耗时、提高通信开销。为缓解这一问题,DeepSeek采用双批次重叠策略,通过交替处理两个批次以减少通信成本。例如在预填充阶段,DeepSeek将一批请求分成两个微批次(micro-batch),当一个微批次正在进行计算时,另一个微批次的数据正在被传输或准备。 图表3:预填充阶段,将一批请求分成两个微批次 通过大规模专家并行(EP)与计算通信重叠(DP),公司吞吐能力大幅提升,算力效率提高。根据DeepSeek,对于decode任务,其平均每台H800输出吞吐约14.8ktokens/s。作为对比,2025年2月,优化后的英伟达H200的节点峰值输出吞吐仅5.9ktokens/s;B200的节点峰值输出吞吐仅21ktokens/s。吞吐率是衡量NLP模型性能的核心指标,表示在单位时间内能处理的文本标记(Token)数量。DeepSeek在使用性能低于H200的H800的前提下,吞吐能力仍然高于H200,算力效率极高。 图表4:英伟达接入DeepSeek-R1后,实现H200和B200的吞吐能力提升 吞吐率取决于批量大小(batchsize)与延时(latency)。批量大小和延时是互为权衡的两个性能指标。起初,增加batch size能够带来吞吐率的快速提升,但增加批量大小的同时,也会增加延时。随着batchsize继续增加到一定程度,总延时的增长会逐渐抵消batchsize增长带来的吞吐量收益,吞吐率会增长放缓并接近某个极限。 DeepSeek通过EP与DP实现架构优化,实现了在增加批量大小的同时,延时(计算时间、通信时间)边际下降,由此吞吐率得到提升,体现出大模型的规模效应。因此大规模集群能提高算力利用率。 图表5:DeepSeek进行架构优化后,批量大小的增加将更有效地带动吞吐率的提升 2、参考DeepSeek,MaaS厂商具有盈利潜力,率先实现规模效应的云厂商将脱颖而出 2.1.DeepSeek口径下,545%高利润率的计算详解 成本端:DeepSeek在计算时仅考虑了GPU的租赁成本,约为$87,072/天。根据DeepSeek在知乎发布的文章《DeepSeek-V3/R1推理系统概览》,我们可以得到以下条件:A)GPU租赁价格:GPU租赁成本为2美金/小时;B)总耗费GPU资源:在最近的24小时里,DeepSeek V3和R1推理服务平均占用226.75个节点(每个节点为8个H800),即,用到226.75*8=1814个H800。GPU运行时间即为24小时。由GPU租赁成本=单个GPU租赁价格*总耗费GPU资源,则可得到总GPU租赁成本。 图表6:DeepSeek口径下,其GPU租赁成本测算得到$87,072/天 收入端:所有tokens均根据DeepSeek R1的API定价,大模型收入约为$562,100/天。大模型带来的收入主要是指用户接入DeepSeek大模型的API而进行的费用支付,可通过模型调用API定价与Tokens消耗量相乘而得。为简化计算,DeepSeek假设所有tokens全部按照DeepSeek R1的API定价计算,即,每一百万输出tokens定价为$2.19;每一百万输入token(缓存命中)定价为$0.14,每一百万输入token(缓存未命中)定价为$0.55。 在tokens消耗量方面,DeepSeek披露了三个情境下的Token使用量:输入token总数为608B,其中342B(56.3%)为缓存命中;266B(43.7%)为缓存未命中。输出token总数为168B。量价相乘,即可得到大模型收入为$562,100/天。 图表7:DeepSeek口径下,其大模型收入测算得到约为$562,100/天 利润端:公司计算得到545%的成本利润率,对应84.5%的收入利润率。DeepSeek根据“AI大模型产生的利润/GPU租赁成本”计算得到大模型的理论成本利润率约为545%。按照“利润率=利润/总收入”的一般财务会计口径计算,则对应84.5%的利润率。 图表8:按利润率=利润/总收入计,DeepSeek利润率约为84.5% 2.2.根据实际情况调整后,DeepSeek利润率有所降低,我们认为付费率为关键影响因素 我们根据实际情况对DeepSeek的收入和成本端进行了调整,以进一步分析利润率的影响因素。具体过程如下: 1)成本端调整:需考虑运维成本、带宽成本等其他经营性成本 为计算简便,DeepSeek在成本端只计算了GPU的租赁价格,但未考虑到其他成本(如运维成本、带宽成本、人力成本、数据版权成本等经营性开支),由此可能会造成成本端的低估、利润率的高估。我们假设GPU租赁成本约占总成本的70%,其他成本占30%,则对应实际总成本约为$124,388.6/天。 图表9:大模型厂商的成本还包括运维、带宽、人力等其他成本 2)收入端调整:需考虑R1定价区别、优惠定价折扣、实际付费率 为计算简便,DeepSeek在进行利润率估算时简化了以下三个因素,因此实际大模型收入及其利润率水平或被高估。 A)R1和V3的定价区别:DeepSeek假设所有tokens全部按照DeepSeek R1的定价计算,但用于计算的token总数,却是DeepSeek V3和R1共同输入、输出的token总数。而根据DeepSeek官网,在标准时段内,同样情形下(缓存命中/缓存未命中/输出价格),DeepSeekV3的价格仅为R1的1/2。 B)标准时段与优惠时段的定价区别:根据DeepSeek官网,DeepSeek API实行错峰优惠定价,每日优惠时段为北京时间00:30-08:30,其余时间按照标准价格计费。而优惠时段中,DeepSeek V1的价格仅为标准时段的1/2,DeepSeekR1的价格仅为标准时段的1/4。 C)Token调用过程中付费率:公司的统计口径包括了网页、APP和API的所有负载,但DeepSeek的网页端和APP端入口均为免费,仅接入API的时候需要付费,因此用户付费率仅为API使用占比。 图表10:为计算简便,DeepSeek在进行利润率估算时简化了三个因素 我们分别对其进行假设,并纳入实际总收入的测算: A)假设DeepSeek V3/R1调用需求占比分别为35%/65% 根据IDC与浪潮信息发布的《2025年中国人工智能计算力发展评估报告》,2024年中国训练算力:推理算力约为35%:65%。由于DeepSeek V3为训练大模型、R1为推理大模型,我们假设DeepSeekV3/R1的需求占比与全国平均类似。由此,在原先DeepSeek官网对不同时段、不同模型、不同情形的定价基础上,我们根据“V3调用单价*V3调用需求占比+ R1调用单价*R1调用需求占比”计算各时段、各情形的均价。 图表11:DeepSeek官网对不同时段、不同模型、不同情形的定价 图表12:假设DeepSeek V3/R1调用需求占比分别为35%/65%,则得到各时段、各情形的均价 B)假设每小时输入、输出token数量均匀分布 根据公司官网,每日优惠时段为北京时间00:30-08:30,即为8小时,剩余16小时为标准时段。我们假设每小时输入、输出token数量均匀分布,则标准时段输入tokens总数为单日输入tokens总数的16/24,优惠时段输入tokens总数为单日输入tokens总数的8/24。假设输入命中率为56.3%不变,则可得到标准时段、优惠时段的输入命中、输入未命中的toke