您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:通信行业周报2025年第6周:Deepseek-R1开源推动AI应用发展,头部AI厂支持Deepseek - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业周报2025年第6周:Deepseek-R1开源推动AI应用发展,头部AI厂支持Deepseek

信息技术2025-02-04袁文翀国信证券Z***
AI智能总结
查看更多
通信行业周报2025年第6周:Deepseek-R1开源推动AI应用发展,头部AI厂支持Deepseek

行业要闻追踪:1月下旬,Deepseek发布R1版推理模型,该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版,其核心技术源自使用自强化学习优化算法GRPO(Group Relative Policy Optimization),让模型形成自主优化能力。同时,Deepseek开源了DeepSeek-R1-Zero和DeepSeek-R1两个660B模型,并蒸馏了6个小模型开源给社区,这扩展了终端侧模型部署的可选性。 Deepseek模型的开源和低成本成为其优势,推动AI应用繁荣发展。开源吸引了更多的开发者参与到模型的开发和使用之中,促进模型的能力提升;低成本意味着开发和使用AI的门槛更低,更多企业和开发者能够加入,从而推动AI Agents和更多应用场景的快速落地。在算力+模型的不断迭代背后,端侧AI及端云协同的商业模式和商业竞争力都将面临重构,DeepSeek-R1的发布刺激了AI下游应用,智能终端厂商已开始在其AI智能体产品(如美格智能AIMO智能体终端)中嵌入Deepseek模型方案。而在过去一周,全球各大AI巨头(包括英伟达、AMD、华为、微软、亚马逊等)纷纷宣布支持Deepseek模型。 微软、META在新一季财报中指引2025年资本开支大幅增加。微软指引2025财年资本开支800亿美元(FY2024资本支出557亿美元),META指引2025年资本开支在600-650亿美元(2024年资本支出372亿美元)。 行情回顾:1月通信(申万)指数上涨2.19%,沪深300指数下跌0.09%,相对收益2.28%,在申万一级行业中排名第9名。分领域看,物联网控制器、光器件光模块、光缆光纤表现较好。 投资建议:关注AI应用景气度提升,兼顾运营商高股息价值 (1)短期视角,Deepseek推动AI生态蓬勃发展,AI应用落地门槛降低,推荐关注:通信设备(中兴通讯等),智能模组(广和通等)、数据中心服务(润泽科技等)。 (2)长期视角,中国移动和中国电信规划2024年起3年内将分红比例提升至75%以上,高股息价值凸显,建议关注三大运营商红利资产属性。 2025年第6周重点推荐组合:中国移动、润泽科技、广和通。 风险提示:宏观经济波动风险、数字经济投资建设不及预期、AI发展不及预期、中美贸易摩擦等外部环境变化。 产业要闻追踪 (1)Deepseek-R1开源推动AI应用繁荣发展,头部AI厂“拥抱”Deepseek 1月下旬,Deepseek发布R1版推理模型,该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版,其核心技术源自使用自强化学习优化算法GRPO(GroupRelativePolicyOptimization),让模型形成自主优化能力。同时,Deepseek开源了DeepSeek-R1-Zero和DeepSeek-R1两个660B模型;同时通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,扩展了终端侧模型部署的可选性。 Deepseek模型的开源和低成本成为其优势,推动AI应用繁荣发展。开源吸引了更多的开发者参与到模型的开发和使用之中,促进模型的能力提升;低成本意味着开发和使用AI的门槛更低,更多企业和开发者能够加入,从而推动AIAgents和更多应用场景的快速落地。在算力+模型的不断迭代背后,端侧AI及端云协同的商业模式和商业竞争力都将面临重构,DeepSeek-R1的发布刺激了AI下游应用,智能终端厂商已开始在其AI智能体产品(如美格智能AIMO智能体终端)中嵌入Deepseek模型方案。而在过去一周,全球各大AI巨头(包括英伟达、AMD、华为、微软、亚马逊等)纷纷宣布支持Deepseek模型。 DeepseekV3相比其他大模型大幅降低训练成本 2024年12月26日,Deepseek发布V3版大模型,多项评测中表现出色: 百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。 长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。 代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。 数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。 中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。 DeepSeekV3采用FP8训练,并开源了原生FP8权重;还采用了多头潜在注意力(MLA)来实现高效推理。它在传统多头注意力机制(Multi-HeadAttention)的基础上,引入了潜在特征(LatentFeatures)概念,进一步提高了对复杂关系的建模能力。也就是先把token的特征压缩成一个小维度的latent vector,然后再通过一些简单的变换把它扩展到各个头需要的Key和Value空间。对于一些重要的信息,比如旋转位置编码RoPE,会进行单独处理,这样网络仍然可以保留时间和位置的信息。在MOE架构中,引入了路由专家(RoutedExperts)和共享专家(Shared Experts)。主要是用来激活那些参数需要被更新。路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。 图1:Deepseek-V3性能 图2:Deepseek的MLA和MoE架构 DeepSeek-V3训练总成本仅为557.6万美元。Deepseek在每个万亿token的训练过程中,使用2048个H800GPU集群,DeepSeek-V3仅需180K个H800GPU小时; 整个预训练阶段完成时间不到两个月,总耗时为2664K GPU小时.加上上下文扩展所需的119K GPU小时和后训练(监督微调+强化学习)所需的5K个GPU小时,DeepSeek-V3的完整训练仅需 2.788M GPU小时。假设H800GPU租赁价格为每小时2美元,DeepSeek-V3训练总成本仅为557.6万美元。 DeepSeek相比ChatGPT等大模型训练成本大幅下降。2023年,OpenAI的GPT-4和Google的GeminiUltra的训练成本预计分别约为7800万美元和1.91亿美元。 图3:Deepseek训练成本 图4:各大训练模型成本对比(2024年之前) DeepSeekV3性价比领先同类大模型。根据价格表,DeepSeekV3的输入费用仅为0.14美元/百万tokens(缓存未命中),缓存命中时更是低至0.014美元/百万tokens,输出费用仅为0.28美元/百万tokens,大幅度优于OpenAIGPT-4o和Claude系列模型。例如,GPT-4o的输入费用高达2.5美元/百万tokens(缓存未命中),输出费用高达10美元/百万tokens。 图5:各大模型成本对比(每百万tokens) 图6:各大训练模型输出价格对比 DeepseekR1性能比肩OpenAI-o1,并发布多个开源模型推动AI生态繁荣发展 2025年1月20日,Deepseek发布R1版推理模型,该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。该模型在后训练阶段大规模使用强化学习(RL)技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-R1API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。 图7:Deepseek-R1性能 图8:DeepseekR1定价 Deepseek启动全自动强化学习框架。在强化学习训练中,优化算法决定了模型的训练效率和稳定性。OpenAI在训练GPT-4和o1这类大模型时,主要采用的优化方式是PPO(ProximalPolicyOptimization),其核心思路是让AI先请教“导师”,再根据导师的评分优化回答,不断往高分答案靠拢,这种方法虽然稳定,但计算成本高。DeepSeek-R1采用的强化学习优化算法是GRPO(GroupRelative PolicyOptimization)来替代PPO。GRPO的核心思路是让AI一次性生成多个答案(比如5个),然后自行比较这5个答案的优劣,基于相对排名调整推理策略。 这种训练策略更强调让模型形成自主优化能力,这也解释了为什么DeepSeek-R1在逻辑推理上的表现比OpenAIo1更优。 Deepseek通过“蒸馏”让小模型具备强大的推理能力。模型蒸馏是一种优化技术,通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。教师模型通常具有较高的性能,但计算成本高昂,而学生模型则更加轻量级,推理速度更快,且内存占用更少。DeepSeek通过监督微调(SFT)的方式,将教师模型的知识迁移到学生模型中。DeepSeek选择的教师模型是其自主研发的大型语言模型DeepSeek-R1,该模型具有671B参数,具备强大的推理能力和广泛的知识覆盖。DeepSeek使用教师模型生成的800,000个推理数据样本对较小的基础模型(如Qwen和Llama系列)进行微调。Qwen和Llama架构在计算效率和内存占用方面表现出色。通过选择这些架构,DeepSeek确保了学生模型在资源受限的环境中能够高效运行。 图9:PPO对比GRPO算法 图10:“蒸馏”模型原理 Deepseek开源了DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。DeepSeek-R1采用MIT许可证开源模型权重,产品协议明确支持模型蒸馏,任何人都能够自由地使用、修改、分发和商业化该模型。DeepSeek-R1的开源改变了这一切,它使得大量初创企业、开发者和科研团队能够以较低的成本获得高水平的AI技术,快速融入到大模型的创新和应用中。这一举措打破了资源不对等的局面,极大地提升了中国创业市场的技术普惠性。 DeepSeek-R1同步开源1.5B、7B、8B、14B等多个蒸馏小模型,极大扩展了终端侧模型部署的可选性,并支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。以DeepSeek-R17B模型的端侧适配性举例,该模型具备轻量化设计特征,经蒸馏和量化后模型体积压缩至2-4GB,很好的匹配移动端存储限制。 图11:从2021年开始,开放开源的模型比例大幅提升。 图12:Deepseek的“蒸馏”小模型性能 此外,Deepseek使用GPU底层PTX编程,或突破英伟达CUDA壁垒。DeepSeek绕过了CUDA,使用更底层的编程语言做优化。这种操作是用PTX(ParallelThread Execution)语言实现的,而不是CUDA。deepseekV3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”: DeepSeek通过PTX语言重新分配计算资源,将部分SM单元用于通信任务,优化流水线并行算法(如DualPipe算法),减少流水线停滞和通信开销。这种“从头重建一切”的硬核优化,使得训练框架的计算与通