您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [交银国际]:科技行业:DeepSeek强势崛起,产业链影响和我们的思考 - 发现报告

科技行业:DeepSeek强势崛起,产业链影响和我们的思考

2025-02-05 王大卫,童钰枫 交银国际 一抹朝阳
报告封面

2025年2月5日 科技行业 DeepSeek强势崛起,产业链影响和我们的思考 DeepSeek强势崛起。1月22日前后,杭州深度求索公司DeepSeek发布两款开源人工智能大模型(DeepSeek-R1/DeepSeek-R1-zero)并取得与海外领先模型相似或者更好的性能。两款模型基于之前发布的DeepSeek-V3,其训练仅用280万小时的英伟达H800 GPU算力(约560万美元)。我们认为,国产高效开源模型的兴起意味着大模型的训练和推理成本或有大幅度降低,引发了投资者关于杰文斯效应(Jevons Paradox)的讨论。 王大卫,PhD,CFADawei.wang@bocomgroup.com(852)37661867 童钰枫Carrie.Tong@bocomgroup.com(852)37661804 多项技术都有实质创新。我们总结DeepSeek-V3和DeepSeek-R1在算法架构、预训练、后训练和蒸馏提炼阶段的创新,我们发现DeepSeek结合硬件、算法和系统,使用定制化的PTX等底层算法达到流水线并行,同时优化了存储,减少了通信的报头开销。因为直接调用硬件,我们认为这些创新或不能通过高级语言实现,这或意味着英伟达CUDA的竞争壁垒有所松动。对于部分投资者所持DeepSeek各项创新都曾单独被尝试的说法,我们认为,如何高效结合不同算法以及软硬件从而打通整个系统是工程问题最核心的难点。 海外芯片影响分化,直接利好国产半导体产业链。对于数据中心芯片,我们认为高效开源AI模型的崛起降低了模型训练的门槛和成本,这或使下游对于高端GPU加速器的需求更加理性。推理方面,高效AI或降低模型推理的门槛,但成本降低或让推理需求增大,从而弥补单价下降的影响。对于英伟达来说,其Blackwell或依然在2025年上市前期供不应求,但其最高端芯片的训练需求的可持续性或受到影响。我们同时认为对AMD、博通和迈威尔的长期影响则相对温和甚至正面。我们认为从硬件性能上,包括华为昇腾在内的国产算力芯片接近或达到英伟达Hopper系列芯片水平。而算法对底层的优化或加速国产模型使用国产芯片,同时利好包括晶圆代工、半导体设备等国产半导体产业链。 长期或利好端侧AI;软件、AI服务提供者或直接受益。我们认为,从长期看,模型门槛降低或加速生成式人工智能在端侧的部署,加速消费电子产品的升级换代,普遍利好端侧芯片和设备OEM。我们对于端侧部署AI的前景较此前更为乐观,虽然具体需求增长的数量和换机的时机尚不确定。我们认为,通过提供生成式AI为垂直行业提供服务的软件公司(包括海内外)或是高效开源大模型成功开发的最直接受益者。软件企业使用大模型的成本降低,且可通过大模型提高开发效率。对于云服务提供商(CSP),我们认为以闭源模型为主要商业模式、且有大量资本投入的公司,其模型IP上的优势变小。对于开发开源模型,通过大模型促进云业务增长实现变现的公司,或在生成式人工智能进一步广泛应用后受益。 我们总结了海外科技企业1月23日以来发布业绩后管理层关于DeepSeek的初步反馈。各家公司对于DeepSeek的表态都比较正面,认为DeepSeek在降低推理成本、提升效率方面有重大创新。同时,DeepSeek的出现进一步表明人工智能领域将有一个开源标准。此外,微软、谷歌和MetaPlatforms均表示在人工智能方面资本开支依然大力投入。 高效开源AI模型崛起,或影响软硬件等 1月22日前后,杭州深度求索公司DeepSeek发布两款开源人工智能大模型(DeepSeek-R1和DeepSeek-R1-zero)。这两款模型基于之前发布的DeepSeek-V3,其训练仅用280万小时左右的英伟达H800 GPU算力(大概1小时GPU算力价格为2美元,即总成本560万美元左右)。而DeepSeek-R1所衍生出来的较小模型则取得了与海外领先模型(例如OpenAI-o1-1217)相似或者更好的性能。 国产高效开源大模型的发布打破了大模型训练必须大规模堆叠GPU算力的市场共识。虽然DeepSeek-V3训练所需的560万美元不包括前期研究、算法和数据的开支,但相较海外大模型动辄上亿美元的训练费用,国产高效开源大模型训练费用节约开支至少1-2个数量级以上。我们认为,这或意味着生成式人工智能大模型的训练成本或有大幅度降低,从而引发了投资者关于杰文斯效应(Jevons Paradox)的讨论,即技术进步提高使用资源的效率,而降低成本却导致需求数量增加,综合看资源使用总量上升。换句话说,生成式人工智能大模型的推理需求或随着训练和推理成本的降低而上升。 国产高效开源大模型的崛起同时使得OpenAI等海外闭源模型的竞争优势大大缩小,进一步证明我国在大模型技术较强的创新能力。 多项技术都有实质创新 根据深度求索关于DeepSeek的技术文档的描述,我们总结DeepSeek-V3和DeepSeek-R1(包括DeepSeek-R1-zero)在技术上的创新。我们认为许多技术元素都有实质性的创新。我们同时认为,理解这些创新或更好地帮助我们理解高效开源大模型对于不同科技行业的影响。 DeepSeek-V3 算 法 架 构 :1)DeepSeek-V3基 础 架 构 是多 头 潜 在 注 意 力(Multi-headLatent Attention MLA, 用 于 高 效 推 理 ) 和专 家 混 合(Mixture-of-ExpertsMoE,用于训练)。2)与之前DeepSeek的版本不同的是,DeepSeek-V3应用一种新型负载均衡策略(auxiliary-loss-free strategy),减少了负载均衡给训练和推理性能带来的损失。3)另外,DeepSeek-V3引进了一种新型预测训练和推理性能的方法(Multi-Token Prediction (MTP)),更好地为性能建模; 预训练阶段:1)为达到高效计算的目的,算法优化和使用混合的浮点数计算的方法;2)通过结合硬件、系统和算法,DeepSeek-V3打通了MoE在训练过程中不同专家节点的通信瓶颈,从而提高了计算和通信间的等待和延迟。我们认为这个步骤或是DeepSeek-V3表现出超越之前模型训练效率的关键因素之一。更具体地说,我们发现训练模型a)使用了定制的PTX(Parallel Thread Execution) 等 底 层 算 法 达 到 流 水 线 并 行 (pipelineparallelism)和b)优化了存储方式和减少通信过程中的报头开销等技术技巧。因为要直接调用硬件,这些技术往往不能通过高级语言执行,故我们 科技行业 认为DeepSeek-V3或绕开部分或者全部英伟达CUDA的中间环节,直接通过机器码或者汇编语言等优化Hopper硬件; 后训练阶段:主要是引入一种创新的长思维链(Chain of Thought (CoT))模型,蒸馏提炼(distillation)特殊模型的推理能力并反馈到标准大模型(即DeepSeek-V3)。 DeepSeek-R1和DeepSeek-R1-zero 后训练阶段:1)通过增强学习的方法,在不应用监督微调(supervisedfine-tuning (SFT))的前提下,应用长思维链(CoT)将基础的DeepSeek-V3演进至DeepSeek-R1-zero。这里,关键难度是DeepSeek-R1-zero的开发不应用SFT。2)DeepSeek-R1-zero表现出较差的可读性,通过两次SFT的调整,DeepSeek-R1-zero模型被进一步发展到DeepSeek-R1,成为我们看到的商用DeepSeek模型; 蒸馏提炼阶段:通过对较大DeepSeek-R1模型的蒸馏提炼得到较小的模型应用于不同的场景,DeepSeek提供了六种较小的模型并发现其性能在数学和编程等不同场景下接近甚至超越了OpenAI-o1-1217等海外领先模型。 对于部分投资者提出的、DeepSeek运用的软件算法和硬件优化技术单独看都曾经被尝试和应用的说法,我们认为融合多种技术并高效应用在一个系统中绝非易事。事实上,我们认为,如何高效结合不同算法以及软硬件从而打通整个系统是工程问题最核心的难点之一。另外,技术的组合和测试需要大量的时间和经验,这也是复杂工程问题不可以快速解决的原因之一。 我们将DeepSeek的崛起对于不同科技行业的影响总结如下: 海外芯片影响分化 高效开源AI模型的崛起降低了模型训练的门槛和成本,加之国产模型开源的特点,这大大降低了训练建造模型的成本。推理方面,高效AI也降低模型推理的门槛,但成本降低或让推理需求增大,从而弥补单价下降的影响。 对于云端和数据中心芯片,我们认为高效开源模型的崛起一定程度上或在中短期使下游对于高端GPU加速器的需求更加理性。特别是海外CSP大厂(微软、AWS、谷歌、Meta),虽然不会立即下调2025年资本支出预算,但长期看,高效开源大模型和蒸馏提炼等技术的成熟应用,或减缓CSP争相通过堆叠硬件而建立更好模型的脚步,转而寻求更高效的训练方式。而包括微软(以及其投资的OpenAI)在内的闭源模型策略和商业模式,或受到开源策略和商业模式的挑战。 另一方面,推理芯片的需求上升或为不同芯片厂商提供参与市场竞争的机会。考虑到推理芯片的门槛不及训练芯片,同时进入门槛或随高效开源AI模型兴起而降低,总体看推理芯片市场或出现更加割裂的竞争态势。 科技行业 英伟达 对于行业龙头英伟达(NVDA US/买入)来说,其Blackwell芯片或依然在2025年上市前期供不应求,但我们认为其最高端芯片的训练需求的可持续性或受到影响,英伟达对于下游的议价能力亦可能受到冲击。CSP大厂或在今后制订资本开支计划时受到更多投资人压力,从而使得资本开支更加理性。根据英伟达管理层预测,其用户主要来自a)大型CSP(占主要份额);b)主权AI(高个位数);c)垂直行业和初创企业。即便作为主要需求来源的CSP用于训练的需求不变,我们认为主权AI、垂直行业和初创企业必然从成本角度控制训练芯片的需求。而英伟达推理芯片的市场或面临AMD、ASIC厂商和国产算力芯片厂商的竞争,虽然总体市场规模可能变大,对于英伟达的影响不一定为正面。综合训练和推理需求,我们认为中长期对于英伟达高端芯片需求影响偏负面。 但是我们同时要指出,基础模型的开发或依然需要大量GPU加速芯片,这或许是业界(特别是CSP)继续采购英伟达高端训练芯片的主要动力。我们也不能排除CSP为了开发出性能超越高效开源模型的新模型,而持续大量采购英伟达芯片的可能性。 AMD 对于AMD(AMD US/买入)来说,我们认为长期对于其数据中心GPU(Instinct系列产品)影响为中性。考虑到AMD第二梯队的GPU芯片本不足以参与训练部分的市场竞争,训练芯片门槛降低对于AMD的影响甚微。正如之前讲到的,推理部分的市场规模长期或变大,且推理芯片门槛降低使得AMD或有机会在竞争中获得更多市场份额。虽然芯片单价或降低,综合看我们比较倾向于对AMD的机会与挑战相当。AMD同时也可能探索其ASIC业务。 我们同时认为对于AMD端侧芯片的需求,即其客户端(client)业务的影响偏正面,我们将在之后的讨论中展开。 博通和迈威尔 对于ASIC开发商博通(AVGO US/未评级)和迈威尔(MRVL US/未评级)来说,考虑到ASIC芯片根据应用决定芯片资源和设计,在软件格局相对稳定之后,我们认为ASIC厂商或发挥ASIC芯片“因地制宜”的优势,根据开源或闭源等不同算法获得不同的ASIC IP设计订单机会。但是ASIC厂商或同时面临着单个芯片单价由于复杂度下降而下降的挑战。从训练需求角度看,我们不能排除CSP或基于DeepSeek或其他开源模型定制ASIC的训练芯片,这或许是为高效开源模型额外定制的ASIC设计,其单价虽不如闭源模型,但对于ASIC厂商这