DeepseekR1是AGI的里程碑,中长期利好算力硬件 2025年2月4日 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区宣武门西大街甲127号金隅大厦 B座 邮编:100031 莫文宇电子行业首席分析师 执业编号:S1500522090001 邮箱:mowenyu@cindasc.com 看好 上次评级 看好 投资评级 证券研究报告 行业研究 行业专题研究(普通) 电子 DeepseekR1是AGI的里程碑,中长期利好算力硬件 2025年2月4日 本期内容提要: DeepSeek树立里程碑,挖掘算法创新的价值潜力。DeepseekV3仍是基于Transformer架构的模型,是一个强大的专家混合(MoE)语 言模型,总共有671B个参数,每个令牌激活了37B参数。DeepSeek-V3主要贡献包括:架构层面创新的负载均衡策略和训练目标,预训练层面大幅提高训练效率,后训练层面DeepSeek-R1的知识提炼等。DeepSeek团队仅以2.664MH800GPU小时的经济成本,在14.8T tokens上完成了DeepSeekV3的预训练。DeepseekR1是基于DeepseekV3的架构上的集大成之作,性能对标OpenAI-o1。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型, 没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。其中,DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能,这标志着研究界的重要里程碑。值得注意的是,这是第一个验证的开放研究,可以纯粹通过RL来激励的LLMs推理能力,而无需SFT。这一突破有望为该领域的未来发展铺平道路。此外,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1中提炼出来的六个密集模型 (1.5B、7B、8B、14B、32B、70B),在部分测试上性能超越OpenAIo1-mini。 OpenAI掀起反攻号角,o3-mini和DeepResearch相继发布。为了应对DeepSeek的挑战,OpenAI发布了O3-mini,理解物理世界能力、编程能力大幅提升。o3-mini在物理模拟高难度挑战中展现出惊人的实力,在模拟小球的转动时,o3-mini具备更强的物理推理能力,而 DeepSeekR1则出现了反重力现象。此外,o3-mini能生成四维空间内小球的弹射程序,展现出很高的潜力。此外,OpanAI还发布了DeepResearch,这是OpenAI新发布代理——仅需一个提示,ChatGPT将查找、分析和综合数百个在线资源,以创建研究分析师级别的综合 报告。它由即将推出的OpenAIo3模型版本提供支持,该版本针对Web浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF,并根据遇到的信息根据需要进行调整。 AI未来尚有星辰大海有待探索,AGI商业化奇点临近。谷歌DeepMind团队曾将AI划分为6大发展阶段,从狭义的层面看,在专业领域已经有AI模型能达到超人级别。如AlphaFold、AlphaZero、StockFish等 AI模型可以在特定的领域完全超越人类,但是从通用人工智能的层面看,AI的发展还处于较低水平,如ChatGPT仅可以划分为Level1- Emerging级别。FIGURE是人形机器人领域的领导者之一,在其视角中,我们也能窥探AI的历史机遇。在如今全球GDP中,50%的劳动力均为人类劳动,大约42T美金空间,仅此一项,AI就有广阔的前景。 投资建议:算法创新和算力投入相辅相成,建议关注AI产业链标的。AI领域的发展速度超过传统制造业,2023年来,ScalingLaws开始发力,全球领域内开启了算力资源的“军备竞赛”。而在地缘政治等因 素的激励下,算法层面的追赶终于由算力相对匮乏的的中国团队唱响号角。我们认为,在通向AGI的道路上,算法创新和算力资源都是不可或缺的。早在2024年,我们就明确了推理市场要想实现繁荣必须降低推理成本的结论。如今,豆包、DeepSeek研究团队的相关工作成功 地大幅度降低了推理成本,推进了AI的产业化。DeepSeek的成功,是开源模型相对闭源模型的一次飞跃。诚然,在十分有限的时间区间内,北美的科技大厂或把有限的精力放在算法层面,以充分挖掘自身算力资源的潜力。但是,这并不意味着对算力的投入将会停止。相反, AI的产业化有望在中长期加速算力的投入,避免了以往的AI热潮最终因无法落地而走向失败的困局。从推理市场看:推理有望快速放量,文生文、文生视频、图生视频的各类功能或快速迭代,并使得AI真正 的理解物理世界,自动驾驶、人形机器人、AI在各行各业掀起产业革命的奇点临近。从训练市场看:一方面,训练模型的前沿探索仍需大量算力投入,且推理市场的放量,有望衍生新的模型探索方向。另一方 面,如世界模型等方向的研究进展有望加速。但是,我们也看到大模型厂商的淘汰也将加速,无法超越开源模型的闭源大模型厂商或快速出清。扎克伯格曾在Meta法说会上表示,“随着时间的推移,就像每个企业都有一个网站、一个社交形象和一个电子邮件地址一样,在未来,每个企业也将拥有一个客户可以与之交互的AI代理。我们的目标是让每个小企业,最终每个企业,都可以轻松地将其所有内容和目录提取到一个AI代理中,从而推动销售并节省资金。”这一时点正在逐步临近,从历史看,当计算机从实验室走向千家万户,并没有导致相关的企业没落,而是孕育了许多伟大的企业。目前看,AI也有望经历这一过程,建议关注产业链相关标的。 相关个股:【AI云侧】工业富联/沪电股份/生益科技/深南电路/胜宏科技/寒武纪/海光信息;【AI端侧】蓝思科技/领益智造/鹏鼎控股/东山精密/乐鑫科技/瑞芯微/恒玄科技/全志科技/兆易创新/晶晨股份等。 风险因素:宏观经济下行风险;下游需求不及预期风险;中美贸易摩擦加剧风险。 目录 DeepSeek算法创新众多,性能表现较好5 OpenAI掀起反攻号角,o3-mini和DeepResearch相继发布9 AI未来尚有星辰大海有待探索,AGI商业化奇点临近13 风险因素15 表目录 表1:建议关注个股15 图目录 图1:DeepseekV3基本架构6 图2:DeepSeek-R1-Zero的“啊哈时刻”7 图3:deepseek性能对标OpenAIo18 图4:deepseek蒸馏小模型在部分测试上性能超越OpenAIo1-mini8 图5:o3-mini具备更强的反重力推理能力9 图6:o3-mini生成了小球在四维空间弹射的代码9 图7:o3-mini理解物理世界的demo9 图8:o3-mini仅用8秒时间就可克隆一个应用10 图9:o3-mini生成的贪吃蛇游戏10 图10:o3-mini生成的射击游戏10 图11:o3-mini生成的漂浮城市10 图12:o3-mini定价对比11 图13:deepresearch在人类终极考试中的成绩12 图14:deepresearch专家级别任务通过率12 图15:谷歌提出的AGI等级13 图16:FIGURE看到的长期机会14 DeepSeek树立里程碑,挖掘算法创新的价值潜力 DeepseekV3仍是基于Transformer架构的模型,是一个强大的专家混合(MoE)语言模型,总共有671B个参数,每个令牌激活了37B参数。实现高效的推理和具有成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,此外,DeepSeek-V3开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。尽管性能出色,但DeepSeek-V3只需要2.788MH800GPU小时即可进行完整训练。总结看,DeepSeek-V3主要贡献包括: 架构层面:创新的负载均衡策略和训练目标。 除了DeepSeek-V2的高效架构之外,DeepSeekV3还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载而引起的性能下降。 团队研究了多标记预测(MTP)目标,并证明对模型性能有益,还可用于推理加速的推测解码。 预训练:迈向终极训练效率。 Deepseek设计了FP8混合训练精度训练框架,并且首次在超大规模模型上验证了FP8 训练的可行性和有效性。 通过算法、框架和硬件的协同设计,DeepSeek克服了跨节点MoE训练中的通信瓶颈,实现了近乎全计算通信折叠,显著提高了DeepSeek的训练效率并且降低训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。 DeepSeek仅以2.664MH800GPU小时的经济成本,在14.8Ttokens上完成了 DeepSeekV3的预训练,生成了当时最强的对外发布的开源基础模型。后训练:DeepSeek-R1的知识提炼。 DeepSeek引入了一种创新的方法,将CoT的推理能力提炼出来,从DeepSeek-R1 模型中提取推理能力并应用于DeepSeek-V3,提升其推理性能。 图1:DeepseekV3基本架构 资料来源:DeepSeek-AI《DeepSeek-V3TechnicalReport》,信达证券研发中心 DeepseekR1是基于DeepseekV3的架构上的集大成之作。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了 卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。但是,它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,DeepSeek团队引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1中提炼出来的六个密集模型(1.5B、7B、8B、14B、32B、70B)。 后训练:在基础模型上进行大规模强化学习。 DeepSeek直接将RL用于基础模型,而无需以来监督微调作为初步步骤。这种方法允许模型探索解决复杂问题的思维链CoT,从而开发DeepSeek-R1-Zero。DeepSeek- R1-Zero展示了自我验证、反射和生成长CoT等功能,这标志着研究界的重要里程碑。 值得注意的是,这是第一个验证的开放研究,可以纯粹通过RL来激励的LLMs推理能力,而无需SFT。这一突破有望为该领域的未来发展铺平道路。 DeepSeek介绍了开发DeepSeek-R1的管道。该管道包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。 蒸馏:较小的模型也可以很强大。 DeepSeek证明,较大模型的推理模式可以提炼成较小的模型,与通过RL在小型模型上发现的推理模式相比,性能更好。开源DeepSeek-R1及其API有望使研究社区在未来能够提炼出更好的更小模型。 使用DeepSeek-R1生成的推理数据,DeepSeek微调了研究界广泛使用的几个密集模型。评估结果表明,蒸馏的较小密集模型在基准上表现非常出色。DeepSeekR1-Distill-Qwen-7B在AIME2024上取得了55.5%的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME2024上的得分为72.6%,在MATH-