AI智能总结
事项: 近期DeepSeek发布多款AI模型,涵盖语言及多模态不同类型,性能表现行业领先,成本优势明显。 评论: DeepSeek多款模型出圈,以极具竞争力的成本,实现行业领先性能表现。 DeepSeek发布并开源了DeepSeek-V3及R1模型,得益于在算法、框架和硬件层面的整体优化设计,DeepSeek前述各模型使用极具竞争力的成本,实现行业领先的性能表现。DeepSeek的出现及开源有助于国内算力资源与模型应用的双向奔赴,新的软件生态可使得国产算力也具备大规模落地应用条件,有望带动整体国产算力需求的释放。此外英伟达、微软、亚马逊等众多海外算力巨头对DeepSeek模型的支持,有助于DeepSeek开源生态圈的成熟扩大,有望推动全球AI产业的快速发展和AI应用的爆发落地。我们认为DeepSeek火爆出圈对于算力产业链的影响将体现在以下几个方面: 1)推理方面,成本重构驱动产业革命,端侧AI迎来黄金发展期。DeepSeek本质上是通过算法架构优化和算力资源调度创新实现的成本重构,而DeepSeek的开源权重也有助于产业链的二次开发部署,在助推AI应用繁荣发展的同时,也将创造更多的推理算力需求。低成本推理有助于推动AI应用突破,带动整体推理集群部署,建议关注推理需求涌现带来的AIDC建设及规模化GPU算力及通信网络部署需求,重点推荐润泽科技,建议关注光环新网。此外,建议重点关注端侧AI的率先落地,重点推荐广和通,建议关注中兴通讯、美格智能; 2)训练方面,训练成本降低有助于需求规模的释放,杰文斯悖论酝酿长期动能。DeepSeek预训练成本远低于行业水平,我们认为短期AI训练市场对于顶尖性能GPU的超大规模集群投资情绪可能出现压力,但也需认识对于整个DeepSeek大模型的完整开发训练,同样需要耗费极大算力,预训练只是其中很少部分的成本占比,还有更多的算力耗费在测试新思路、新架构和消融实验等。此外随着AI应用端持续落地,训练投资有望迎来杰文斯效应,由推理需求涌现拉动更多更高的训练需求,长期维度上我们仍坚定看好训练对算力的需求,建议关注重点AI应用爆发带来训练算力释放的节奏,重点关注英伟达、博通等北美AI硬件产业链对应标的,重点推荐天孚通信、新易盛、中际旭创。 国产算力有望加速迭代,建议重点关注国产算力产业链。我国AI大模型及国产算力产业链持续突破,取得可对标全球先进水平的成就,生态圈日趋成熟。 根据中国银行官网,2025年1月23日中国银行在京发布《支持人工智能产业链发展行动方案》,将在未来五年为人工智能全产业链各类主体提供不少于一万亿元专项综合金融支持,以金融力量支持国家科技自立自强,加大对国家战略科技力量与科技领军企业的支持力度,助力“卡脖子”关键领域核心技术攻关,国产算力产业链有望核心受益。建议关注国产GPU、服务器、交换机、光模块、高速铜缆等国产算力各细分产业链,重点推荐盛科通信,建议关注光迅科技、锐捷网络、华工科技、紫光股份、共进股份等。 风险提示:AI需求不及预期、国产算力发展不及预期、国际贸易局势变化 一、DeepSeek发布多款AI模型,性能行业领先且价格优势显著 近期DeepSeek发布多款AI模型,涵盖语言及多模态不同类型,性能表现行业领先。深度求索(DeepSeek)为中国一家人工智能与大型语言模型公司,总部位于中国大陆浙江省杭州市,由中资对冲基金幻方量化创立。2024年12月26日,DeepSeek发布并开源了DeepSeek-V3,评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡。2025年1月20,DeepSeek发布并开源了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。2025年1月27日,DeepSeek发布多模态大模型Janus-Pro,在文字转图像性能上比肩DALL-E 3等主流多模态模型。 图表1 DeepSeek发展历程及模型发布 (一)DeepSeek-V3性能比肩GPT-4o等主流开源及闭源模型 2024年12月26日,DeepSeek-V3首个版本上线并同步开源,性能比肩GPT-4o等主流开源及闭源模型。根据DeepSeek API文档,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。模型API服务定价为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。 图表2 DeepSeek-V3性能比肩GPT-4o等主流开源及闭源模型 百科知识:DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。 长文本:在长文本测评中,DROP、FRAMES和LongBench v2上,DeepSeek-V3平均表现超越其他模型。 代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022。 数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。 中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。 图表3 DeepSeek-V3性能与主流开源及闭源模型对比 (二)DeepSeek-R1性能对标OpenAI o1正式版 此后,2025年1月20日,DeepSeek-R1发布,性能对标OpenAI o1正式版。根据DeepSeek API文档,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,显著低于OpenAI o1。 图表4 DeepSeek-R1性能对标OpenAI o1正式版 DeepSeek-R1蒸馏小模型超越OpenAI o1-mini。DeepSeek在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个不同参数量的小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。 图表5 DeepSeek-R1蒸馏小模型超越OpenAI o1-mini (三)首个多模态大模型Janus-Pro在文字转图像性能上比肩DALL-E 3等主流多模态模型 2025年1月27日,DeepSeek发布首个多模态大模型Janus-Pro。Janus-Pro是前作Janus的高级版本,具体来说,Janus-Pro结合了(1)优化的训练策略,(2)更大的训练数据集,以及(3)扩展到更大的模型规模。通过这些改进,Janus-Pro在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。 图表6 Janus-Pro增强了文本到图像生成的稳定性 DeepSeekAPI服务定价显著低于行业水平,有望持续带动推理需求涌现。DeepSeek-V3模型API服务定价为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,显著低于OpenAI o1。DeepSeek API服务定价显著低于行业水平,有望持续带动推理需求涌现。或许是迫于DeepSeek带来的压力,近期OpenAI紧急上线新一代推理模型o3-mini,并首次向ChatGPT免费用户开放推理模型。 图表7 DeepSeek-R1 API服务定价显著低于OpenAI o1 二、DeepSeek-V3从训练技术、训练框架等方向进行了优化,降低训练成本 DeepSeek-V3实现了极具竞争力的训练成本,这得益于在算法、框架和硬件层面的整体优化设计。根据DeepSeek-V3技术报告,在预训练阶段,每处理1T token仅需180K H800 GPU小时,即在配备2048个H800 GPU的集群上仅需3.7天。因此,整个预训练阶段在不到两个月内完成,总计使用了2664K GPU小时。加上上下文长度扩展所需的119K GPU小时和后训练阶段的5K GPU小时,DeepSeek-V3的完整训练总共消耗了2.788M GPU小时。按照每GPU小时2美元的H800 GPU租用价格计算,总训练成本仅为557.6万美元。需要说明的是,这些成本仅包含DeepSeek-V3的正式训练环节,不包括前期架构研究、算法验证和数据实验等相关支出。 图表8 DeepSeek-V3训练成本(假设H800的租赁价格为$2/GPU小时) DeepSeek-V3从训练技术、训练框架等方向进行了优化,降低训练成本。根据DeepSeek-V3技术报告,DeepSeek-V3的训练环境是一个配备2048个NVIDIA H800 GPU的大规模计算集群。该集群中的每个计算节点包含8个GPU,这些GPU通过节点内的NVLink和NVSwitch实现高速互连。节点之间则采用InfiniBand (IB)技术进行高效通信。 1)为了提高训练效率,DeepSeek-V3采用了FP8混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案,其发展与硬件性能的提升密切相关。 DeepSeek-V3首次在超大规模模型上成功验证了FP8混合精度训练框架的有效性。通过采用FP8计算和存储技术,显著提升了训练速度并降低了GPU内存占用。 2)在训练框架方面,研究团队开发的DualPipe算法实现了高效的流水线并行处理,减少了流水线停滞,并通过计算和通信并行处理的方式降低了训练过程中的通信开销。这种优化确保了即使在模型规模进一步扩大的情况下,只要维持适当的计算通信比例,就能在不同节点间实现细粒度专家分配,同时将全节点间的通信开销降至接近于零。 3)此外,研究团队优化了跨节点的全节点通信内核,充分利用了InfiniBand(IB)和NVLink的带宽性能。通过精细的内存优化,使得DeepSeek-V3的训练无需依赖成本高昂的张量并行技术。 DeepSeek助力国内算力资源与模型应用的双向奔赴,提升国产算力成熟度,释放新需求。 2025年2月1日,硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务。 得益于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。此外腾讯云2月2日宣布,DeepSeek-R1大模型可一键部署至腾讯云HAI(腾讯云高性能应用服务)上,开发者仅需3分钟就能接入调用。我们认为,DeepSeek的出现及开源有助于国产算力链突破海外对GPU和软件栈等算力技术和产品的封锁和禁锢,新的软件生态可使得国产