专题报告 Deepseek引爆通信产业新机遇 西南证券研究发展中心通信研究团队2025年2月 核心要点 DeepSeek通过创新算法使推理效率大幅优化,大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。DeepSeek-V3采用了多头潜在注意力(Multi-headLatentAttention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。 DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。从成本端看,更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。技术端看,Deepseek在自然语言理解、多模态交互等底层技术上的突破直接降低了垂直领域小模型的技术门槛,其开源的分布式训练框架等技术能够被小模型复用。同时,Deepseek的模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求,同时小模型下沉到中小企业,进一步带来了网络通信基础设施需求,对交换机、边缘计算设备、5G切片等带来新需求。 光模块等需求来源从训练转向推理,带来多场景适配需求。虽然单次训练任务的算力需求降低,但模型轻量化可能推动分布式训练和边缘计算的普及,导致数据中心内部短距连接需求从集中式超算集群转向更分散的节点间通信。机架内光模块对于高密度计算仍需要低延迟、高带宽的互连,800G模块需求可能受分布式架构的推动;而在边缘场景,短距光模块在边缘服务器的部署比例可能上升,但单点用量低于传统超算中心。同时,技术替代效应强于需求收缩,CPO的核心价值在于解决传统可插拔光模块的功耗和密度瓶颈,即使算力需求下降,但对于能效比要求、空间压缩要求、降低成本要求仍可能驱动其渗透率提升。 风险提示:AI建设不及预期;上游资本开支不及预期等。 1 目录 1技术突破——开源大模型如何重塑AIAgent开发范式 2因果闭环——AIAgent多点开花和边缘设备搭载ai如何倒逼通信升级 3硬件变革——通信产业链的确定性机会 2 DeepSeek与开源模型的“降本增效”革命 DeepSeek大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本 。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。 DeepSeek通过创新算法使推理效率大幅优化。DeepSeek-V3采用了多头潜在注意力(Multi-headLatentAttention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。 DeepSeek-R1与各类大模型性能比较 DeepSeek-V3与各类大模型性能比较 数据来源:DeepSeek,西南证券整理3 MoE系数模型效率提升 MLA架构带来的效率优化 MLA架构带来的效率优化 DeepSeek与开源模型的“降本增效”革命 MLA架构能够大幅提升模型推理效率。MLA(Multi-headLatentAttention)跨层注意力特征融合架构架构是DeepSeek模型中的一种注意力机制优化技术,通过低秩联合压缩注意力键(Key)和值(Value),显著降低了推理过程中的KV缓存,同时保持了与标准多头注意力(MHA)相当的性能。MLA架构在保持模型性能的同时,通过压缩技术减少了内存占用和计算量,从而提高了模型的推理效率。 MoE稀疏化能够控制激活参数数量,提升模型计算效率。MoE(MixtureofExperts)通过将模型划分为多个“专家”模块,每个专家专注于处理特定的任务或数据子集。在训练和推理过程中,只有部分专家被激活,从而减少了不必要的计算。MoE架构能够显著降低计算开销,提高模型的训练和推理效率。此外,MoE架构还具有高度的可扩展性,通过增加专家的数量,可以进一步提升模型的性能,而不会显著增加计算成本。 指标 稠密模型 MoE稀疏模型 提升幅度 单样本计算量 100%参数参与 10%-30%参数参与 3-10倍 训练显存占用 全参数存储 仅激活专家存储 降低60% 千卡集群利用率 45%-50% 60%-65% +15个百分点 传统 Transformer MLA架构 创新点 效果提升 传统Transformer 单层自注意力 跨层注意力 门控 上下文理解+23% 单层自注意力 固定参数交互 动态参数共享机制 模型容量140% 固定参数交互 独立位置编码 层级相关位置偏置 长文本处理13.5x 独立位置编码 评估维度 传统注意力架构 MLA+MoE架构 超额收益来源 资本效率 1产出需0.8算力投入 1产出需0.3算力投入 毛利率提升空间 +25pp 技术代差 6-12个月迭代周期 2-4周架构微调能力 先发优势溢价 +40% 生态价值 封闭式API模式 开源框架+开发者生态 网络效应乘数3x 风险敞口 依赖英伟达生态 国产化技术栈自主可控 地缘政治风险 -70% 数据来源:DeepSeek,西南证券整理4 目录 1技术突破——开源大模型如何重塑AIAgent开发范式 2因果闭环——AIAgent多点开花和边缘设备搭载ai如何倒逼通信升级 3硬件变革——通信产业链的确定性机会 5 部分垂类大模型示意 垂直小模型多点开花 DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。从成本端看,DeepSeek推理成本大幅降低,DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。技术端看,Deepseek在自然语言理解、多模态交互等底层技术上的突破直接降低了垂直领域小模型的技术门槛,其开源的分布式训练框架等技术能够被小模型复用。同时,Deepseek的模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。 垂类数据集结合DS大模型,形成强大数据飞轮。Deepseek通过与各垂直领域合作获取的行业数据,反哺其基座模型优化,而基座模型优化又进一步降低了开发垂类模型的行业数据的需求和成本,形成“大模型增强-小模型易用性提升”的正向循环。 各大模型tokens成本比较 行业 垂类模型 简介 零售 微盟导购任务AI+ 集成DeepSeek,帮助零售企业自动化、智能化规划导购任务,为导购的用户运营和销售转化提供方向 京东公有云在线部署 上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式,供用户按需部署,快速调用,进行智能客服,提升电商运营效率 汽车 东风汽车DeepSeek全系列大语言模型 接入DeepSeek大模型,实现智能座舱、交互语音、自动驾驶辅助等功能,提升驾驶体验和自动化水平 金融 苏商银行DeepSeek系列技术 结合DeepSeek模型优化金融服务,如智能投顾、风险评估、客服自动化等,提升客户体验并优化运营效率 诺安基金诺安AI助手 完成DeepSeek金融大模型的本地化部署,推出基于主流AI开源框架自主研发的“诺安AI助手”,于投研分析、客户服务、风险管控等核心业务场景启动试点应用 医疗健康 医渡云"AI医疗大脑"YiduCore 评估临床辅助诊断、医学影像分析、健康管理等领域,为研究、诊疗及公共健康三大类场景提供强有力的智能化支持,提高医疗服务标准化水平 丁香园智能医学问答AI 集成DeepSeek,优化医生与患者的沟通效率,提供医学知识查询、病情分析等功能 高精尖 制造 海光信息 完成DeepSeekV3和R1模型与海光DCU的适配,海光DCU(深度计算单元)基于高性能GPGPU架构,支持FP32/FP16高精度计算,已在金融、医疗、政务等领域实现规模化应用 教育 沪江网校AI智能助教 基于DeepSeek大模型,实现个性化学习推荐、智能答疑、作业批量修改等功能,提升在线教育体验 数据来源:Statista,微盟,东风汽车,苏商银行,诺安基金,丁香园,海光信息,沪江网校,西南证券整理6 网络是大模型的重要基础能力 垂直小模型带来通信基础设施需求 对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求。例如在自动驾驶领域,Agent需要实时获取车辆周围环境的大量数据,如路况、交通信号、其他车辆和行人的位置等,以便做出快速准确的决策。这要求5G网络的端到端时延必须小于20ms,以确保数据的实时传输和处理。 大量的数据处理也带来了算力分布的重构。医疗影像领域需要处理大量的高分辨率图像数据,传统的集中式云计算模式在处理这些数据时存在延迟和 带宽瓶颈,因此,边缘计算节点可以将部分计算任务从云端转移到靠近数据源的地方,从而减少数据传输的延迟,提高数据处理的效率。 工业数据也对网络可靠性提出要求。工业质检领域对通信基础设施的网络可靠性提出了极高的要求,质检模型需要实时传输和处理大量的高清图像和 视频数据,任何网络中断或数据丢失都可能导致质检过程的中断,一般工业确定性网络的需要可用性达到99.999%,以实现数据的确定性传输。 车联网边缘计算示意图 数据来源:中国信通院,西南证券整理7 网络架构革命驱动基础设施升级 5G增强型基站爆发:边缘计算将数据处理和分析的能力从云端向网络边缘转移,靠近数据源或用户端,5G增强型基站作为5G网络的重要组成部分,其高速率、低时延、大连接的特性为边缘计算提供了强大的网络支持,使得边缘计算能够更好地发挥其优势。在边缘计算场景下,边缘AI要求网络切片能力提升300%,AAU设备需支持动态算力分配,华为、中兴均已重点布局。 边缘DC规模化部署:据IDC发布的《中国设备现场级边缘算力设备/泛工控机市场份额,2023》,随着边缘计算的兴起和发展,全球边缘计算支出预计将在2028年达到3780亿美元,48%的边缘计算设备应用于机器视觉领域,22%和12%的设备应用于设备控制监控和视频安防监控领域。同时,边缘计算算力需求也对设备的功耗和冷却提出了新要求,24年单台边缘服务器功率密度突破30kW/机架,预计液冷渗透率在未来三年内将从5%升至35%。 各应用对于速率和时延需求分布 边缘计算设备应用领域分布 数据来源:OVUM,IDC,西南证券整理8 网络切片架构示意图 运营模式向算力服务转型 网络切片即服务(NSaaS):网络切片是5G网络的一项关键技术,它将物理网络切割成多个虚拟网络,每个切片具备独立的逻辑功能和性能特征,可按需定制,满足不同业务需求。边缘计算与网络切片结合,可实现网络资源的灵活分配和管理。AIAgent可以按需调用切片资源,根据不同应用对网络带宽、时延的不同要求,利用网络切片技术,可为各应用创建专属