【我们团队对于DeepSeek理解,可以用一个非常巧妙的比喻来概括:内燃机效率的提高,一定会带来更大的石油消耗】 DeepSeek做了什么: 【1】验证了新的ScalingLaw:在过去的几年间,AI模型的增长主要依靠于预训练阶段的规模堆积,通过对人类已有数据的不断积累,从而增加模型的规模和能力。但随着训练耗尽了人类已有数据,叠加合成数据之路所产生的幻觉和边际收益递减问题,预训练阶段的ScalingLaw逐渐放缓。2024年以来,基于强化学习的新ScalingLaw成为了行业重点方向,先后涌现出了GPT-o1,DeepseekR1等优秀模型。RL这种新的AI增长曲线,在初期展现出了非常高的投入性价比,这也是DeepseekV3快速进化到R1,并展现出强大能力的根本原因。 当下RL依然是基于传统的预训练模型,在推理阶段加入RL使得模型面对理科问题时的推理技能更加强大。展望未来,随着RL算法在预训练阶段逐渐取代自回归算法,同时使用更强大的算力和更多的数据,基于RL算法训练模型生成思维链,将共同构成AI新的ScalingLaw,算法创新与算力堆叠在这条曲线上将一起狂奔,AI的能力边界将迎来新一轮的扩张。 【2】极致的工程优化:DeepSeek的真正创新之处在于极致的工程优化,主要依靠了如键值缓存,创新型的MoE架构,以及基于PTX层汇编语言实现对于英伟达GPU效率的极致压榨等等,通过这些创新性的工程优化,使得DeepSeek打破了西方模型公司固有的降本周期曲线,能够用更低的价格,来提供接近头部模型的使用体验,提高了全球算力的使用效率。 【3】慷慨的开源:与西方以OAI和Anthropic为代表模型巨头,逐渐走向闭源的模型商业理念不同,DeepSeek将自身创新性原理和模型进行了开源,一方面使得全球模型厂商能够共享新的工程方法带来的性价比提升,另一方面使得全球用户能够本地或者通过公有云部署,从而避免高溢价,这也是Deepseek在全球开发者中获得如此高殊荣的核心原因。 DeepSeek对于英伟达的影响: Deepseek的出现,让全世界看到AGI的实现又更近了一步。我们认为,海外在算力领域的布局不会因为deepseek有所放缓,相反,因为deepseek的出现,将会给全球科技巨头进一步上紧发条,海外科技巨头们将进一步加码在算力领域的布局。具体而言,一方面可能会进一步加大英伟达GPU采购力度,另一方面也会加紧推进自研ASIC方案的进度。此外,美国政府可能会进一步加紧芯片出口限制,试图在算力层面上进行最后的封锁,以限制其他国家地区的AI发展,维护其所谓的AI领先地位。 对于英伟达而言,我们认为,deepseek的阶段性胜利,将继续推动算力市场的整体需求,长期的天花板进一步被打开,我们不认为英伟达的需求和订单会出现任何大幅度的影响,相反,一方面可能会进一步超预期,另一方面英伟达可能也会将其下一代产品的迭代速度加速,性能有望实现重大突破的极具创新型技术路线(如CPO、OIO等),我们认为有望继续提速。我们认为英伟达的股价下跌并非反应的是需求的变化,而更多应是担心可能发生的进一步加紧的芯片出口限制而带来的不确定性。 DeepSeek对于中国算力投资的影响 【对于国产算力】:DeepSeek推出后,美国迫于竞争压力,对于中国进一步加强算力制裁的呼声愈发强大。同时由于DeepSeek开源和低成本特性,国产显卡用于推理的性价比和ROI急剧上升,至此,基于中芯国际的制造能力,芯片厂商的设计能力,Deepseek模型的应用能力三者合一,中国算力自主可控的飞轮开始旋转。 【对于边缘侧】:DeepSeek对于边缘侧的拉动主要有两点,第一是云端先进模型的价格降低,使得AI应用,AI硬件的使用和开发运营成本降低,这将促进AI硬件的放量。第二是DeepSeek对于小模型优化的能力,此次Deepseek也基于Qwen与Llama发布了部分优化后的小模型,能力相较于此前小模型有一定提升。我们认为,随着RL这一新增长曲线的不断放量,叠加边缘侧算力的提升,边缘推理将加速变为现实,边缘算力有望加速放量。 Deepseek对于全球算力投资的影响: 1、GPU:我们认为deepseek对GPU的影响是积极的,因为目前无论从训练还是推理的角度,GPU的优势的非常明显,算力长期来看依旧将继续指数级增长,我们依旧看好英伟达在AI基础设施领域的确定性优势,同时看好其在能够大幅度提升性能的新技术领域的加速,看好CPO、OIO的加速落地,建议关注:天孚通信、康宁、太辰光等。 2、ASIC:强化学习对推理的积极影响,可能会加速大模型团队及云厂商对于推理以及自研算力的需求和进展,最终市场取决于单位算力成本的比较,目前来看英伟达在推理领域依旧有着明显的优势,但云厂商可能会继续冒着支出更多的代价,坚定推进自研算力。利好云厂商的ASIC合作伙伴,以及其配套产业链:博通、amd、mrvl、arista、cls、中际旭创、新易盛、cohr、lite等。 3、通信:deepseek对通信的影响比较综合,通常训练集群通信要求相较于同等规模的推理集群更高,但考虑到性价比问题,目前众多训练集群也兼顾了推荐算法、推理、科研、金融交易等其他功能,我们认为训练集群依然将坚定的向着规模更大的方向发展。同时,推理需求需要考虑规模效应,预计云厂商主导的推理市场依旧将占主导地位,端侧目前算力有限,不构成太大影响,预计推理集群也将延续过去发展趋势。综合来看,无论是训练还是推理,依旧将使用到更多的高端交换机和光模块,我们倾向于推荐产品有优势、在手订单充足、产能扩展顺利的标的,建议关注:博通、arista、cls、中际旭创、新易盛、cohr、lite、ciena、德科立。 4、能源:海外能源相关配套差,我们预计deepseek的出现,将坚定海外科技巨头加速加码布局基础设施的决心,能源领域继续看好整个方向,建议关注:SMR、OKLO、威腾电气,电工合金。 总结来看,对于节后A股的思考: 春节假期中,除了DeepSeek之外,还发生了北美关税落地,芯片制裁进一步加严等事件。结合市场对于DeepSeek的边际变化的认知更多反应在应用端的快速放量上,因此节后主要的进攻方向主要聚焦在端侧以及国产替代链上,而从中长期来看,通信、能源等全球算力配套产业链也将迎来全新的发展期。 节后方向: 端侧:物联网模组龙头,美格智能,移远通信,广和通。 国产替代:寒武纪-U,中芯国际,中兴通讯。 建议关注:算力—— 光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、光库科技、光迅科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁。铜链接:沃尔核材、精达股份。算力设备:中兴通讯、紫光股份、锐捷网络、盛科通信、菲菱科思、工业富联、沪电股份、寒武纪、海光信息。 液冷:英维克、申菱环境、高澜股份。边缘算力承载平台:美格智能、广和通、移远通信。卫星通信:中国卫通、中国卫星、震有科技、海格通信。 IDC:润泽科技、光环新网、奥飞数据、科华数据、润建股份。 数据要素—— 运营商:中国电信、中国移动、中国联通。数据可视化:浩瀚深度、恒为科技、中新赛克。 风险提示:AI发展不及预期,算力需求不及预期,市场竞争风险。 重点标的 股票代码 1.投资策略:DeepSeek—模型效率的革命,算力基建的新起点 本周建议关注: 算力—— 光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、光库科技、光迅科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁。 铜链接:沃尔核材、精达股份。 算力设备:中兴通讯、紫光股份、锐捷网络、盛科通信、菲菱科思、工业富联、沪电股份、寒武纪、海光信息。 液冷:英维克、申菱环境、高澜股份。 边缘算力承载平台:美格智能、广和通、移远通信。 卫星通信:中国卫通、中国卫星、震有科技、海格通信。 IDC:润泽科技、光环新网、奥飞数据、科华数据、润建股份。 数据要素—— 运营商:中国电信、中国移动、中国联通。 数据可视化:浩瀚深度、恒为科技、中新赛克。 本周观点变化: 本周受Deepseek出圈影响,国内外算力市场均出现大幅波动。国内多支相关个股跌停,海外AI基础设施板块巨震后,英伟达走势最弱,而博通、arista、mrvl、cls、lite、cohr、credo等代表的非nv算力产业链均出现不同程度的回暖。我们认为,节后主要的进攻方向主要聚焦在端侧以及国产替代链上,而从中长期来看,通信、能源等全球算力配套产业链也将迎来全新的发展期。 2.行情回顾:通信板块下跌,光通信表现最优 本周(2025年1月27日)上证综指收于3250.60点。各行情指标从好到坏依次为:上证综指>沪深300>万得全A>万得全A(除金融,石油石化)>中小板综>创业板综。通信板块下跌,表现劣于上证综指。 图表1:通信板块上涨,细分板块中光通信表现相对最优 从细分行业指数看;运营商上涨1.8%;卫星通信导航、物联网、移动互联、区块链、通信设备、云计算分别下跌2.1%、2.7%、3.0%、3.2%、3.25%、3.3%,表现优于通信行业平均水平;量子通信、光通信分别下跌4.5%、7.9%。 本周,受益于AI智能体概念,拓尔思上涨17.794%,领涨版块。三变科技上涨9.984%; 浙江东方上涨9.935%;受益于家庭医生概念,ST易联众上涨5.502%;受益于AI智能体概念;*ST信通上涨5.054%。 图表2:本周拓尔思领涨通信行业 3.春节专题1:DeepSeek—模型效率的革命,算力基建的新起点 【核心的一句话:内燃机效率的提升,将带来更多的石油消耗】 我们在首页中已经较为详细的阐述了DeepSeek给全球模型界带来的趋势性变化,在基于RL的新增长曲线,开源带来的全球使用部署热潮下,我们认为算力将在训练与推理的新一轮增长中迎来新的繁荣。 首页中提到,DeepSeek主要的创新来自于工程实现优化,其中包括了创新性MOE,PTX语言等等等等。我们在正文中就一些方面进行简单展开。 在训练原理层面,DeepSeek-R1-Zero模型创新性的跳过了SFT阶段,仅仅使用RL ,使得训练过程进一步简化。DeepSeek-R1-Zero创新性的引入了GRPO算法,使得模型冷启动时能够跳过superviseddata,从而能够节省训练成本。 图表3:GRPO算法 第二,通过使用PTX语言,使得在训练与推理过程中,对于英伟达GPU的性能利用更为高效。英伟达的Cuda体系大体上可以分为三层,第一层为Cuda层,第二层称为PTX层,第三层则为机器码,对应到我们传统编程语言中的“高级语言、汇编语言、机器码”在开发时,Cuda层可以调用函数,利用已有算力,简化流程,因此更加简单,但是无法实现对于GPU的精确控制,PTX则可以深入源头,对于GPU实现更加精确的控制,从而有效提高算力的利用效率。在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:在132个流处理器多核中,划分出20个用于服务器间通信,主要用于数据压缩和解压缩,以突破处理器的连接限制、提升事务处理速度。 图表4:Deepseek使用PTX语言 第三,继续保留了DeepSeekV3优秀的MOE架构,使得推理时能够更加精准的调用对应的专家参数,进一步提高了模型的性价比。DeepSeek-V3的设计理念是,通过智能地选择激活哪些参数,而不是盲目地激活所有参数,从而实现了在有限的计算资源下,实现最优的表现。这种方法不仅提高了计算效率,也使得DeepSeek-V3能够在处理复杂任务时,表现出更高的性能。 在此基础上,DeepSeek-V3的MoE设计还具有出色的可扩展性。这一设计通过整合不同领域的“专家”,实现了模型的灵活扩展,无需将所有模型紧密集成在一起。通过这种模块化的设计,DeepSeek-V3能轻松地进行规模扩展,同时还能灵活地适应新的需求和挑战。这种模块化的设计方式,使得