AI智能总结
DeepSeek给予云厂商低门槛部署“杀手级”应用机会,市场需求有望迎来广阔机遇。 DeepSeek通过在架构设计、训练策略、算法优化以及硬件适配等多方面的创新实现在低算力条件下性能优异,配合其巧妙地蒸馏技术为模型的广泛运用打开想象空间。轻量化架构配合量化剪枝技术,使AI推理首次真正突破硬件限制,部署成本从高端GPU扩展至消费级GPU。DeepSeek带来的平权效应缩小与海外模型的差距,高效的训练方法让算力门槛显著降低。而算力门槛的下降给予云厂商们以低门槛部署“杀手级”应用的机遇将不断扩大。 云厂商是DeepSeek能力的“放大器”:充足的算力“弹药”与用户覆盖能力。 DeepSeek的出现让AI算力回归平价,在DeepSeek拉平大模型之间的差距的趋势下,能赢得“胜局”的决定权落回到算力层面,而云厂商在具备充足的算力“弹药”与广泛的用户覆盖的天然优势的前提下,有望迅速反哺。而随着越来越多的公有云厂商拥抱DeepSeek模型,其背后的算力资源回归同一起跑线,从而转为考量算力池的深度和用户覆盖的广度。 拥有海量GPU资源边缘侧云服务厂商或是最佳受益者。 以顺网科技为代表的边缘云厂商过去业务积累了大量边缘侧中高端消费级GPU云服务资源,DeepSeek低算力要求使得其智算云2月5日官宣已可支持DeepSeek模型部署和运行服务,或成为【激活DeepSeek“最后一公里”的最佳云服务厂商】:1、因为基于已有的大量冗余资源消费级中高端显卡资源部署服务,成本极低,性价比极高;2、目前仅有的覆盖全国最靠近用户的海量边缘侧算力云服务资源,无论延时与算力调配响应体验最佳;3、已经有以云电脑等为代表的DeepSeek潜在应用商业出口,变现路径清晰。 投资建议:DeepSeek开源给予了云服务厂商低门槛部署世界级AI“杀手级应用”,云服务企业又能弥补DeepSeek自身算力紧缺与大规模用户服务部署难题,故云服务厂商市场需求有望迎来广阔机遇。我们重点建议关注: 1、公有云:金山云、优刻得等; 2、边缘云:顺网科技、网宿科技; 3、混合云服务商:深信服、青云科技; 4、垂直行业SaaS:三六零、金山办公、萤石网络、软通动力、科大讯飞。 风险提示:技术发展不确定性,行业竞争加剧风险。 1DeepSeek给予云厂商低门槛部署“杀手级”应用机会,市场需求有望迎来广阔机遇 1.1创新技术架构:打破传统内存和算力瓶颈 DeepSeek通过多方面创新实现在低算力的同时性能优异。DeepSeek模型对算力要求相比以往大模型大幅降低,主要得益于其在架构设计、训练策略、算法优化以及硬件适配等多方面的创新。 多头潜注意力(MLA)、深度求索混合专家系统(DeepSeekMoE)的创新架构显著降低训练和推理时的内存占用和计算量。传统计算方式存在对KV矩阵重复计算的问题,这不仅浪费了大量的计算资源,还会导致显存消耗过大,影响模型的运行效率。而MLA技术巧妙地解决了这个难题,它通过独特的算法设计,减少了对KV矩阵的重复计算,大大降低了显存的消耗。而MOE技术将模型分解为多个专家模型和一个门控网络,门控网络根据输入数据的特点,智能地选择合适的专家模型来处理,这样不仅减少了知识冗余,还提高了参数利用效率。在自然语言处理的语言模型任务中,使用MOE结构的DeepSeek模型可以用相对较少的参数,保持甚至提升语言生成的质量,同时显著降低训练和推理时的内存占用和计算量,根据CSDN,DeepSeekMoE在保持性能水平的同时,实现了相较传统MoE模型40%的计算开销降低。 图1:MLA及DeepSeekMOE基础架构 DeepSeek-R1在继承了V3的创新架构的基础上,在后训练阶段大规模使用了强化学习技术,自动选择有价值的数据进行标注和训练,减少数据标注量和计算资源浪费,并在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,DeepSeek在AIME 2024测评中上获得79.8%的pass@1得分,略微超过OpenAI-o1;在MATH-500上,获得了97.3%的得分,与OpenAI-o1性能相当,并且显著优于其他模型。。 图2:DeepSeek-R1系列模型性能对比 DeepSeek的蒸馏技术为模型的广泛运用打开想象空间 。模型蒸馏(KnowledgeDistillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。在深度学习领域,模型参数数量通常被视为衡量模型复杂度和能力的一个重要指标,一般认为参数越多,模型能够学习到的知识和模式就越丰富,性能也就越强。然而,大参数模型也带来了诸多问题,如训练成本高昂,需要大量的计算资源和时间;部署和运行时对算力要求极高,限制了其在一些资源有限场景下的应用。 图3:蒸馏的技术原理 DeepSeek的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著的优化。蒸馏模型的参数量大幅减少,例如DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。 由于参数量的减少,蒸馏模型在内存占用方面也表现出色。且DeepSeek的蒸馏模型在推理速度上实现了显著提升。例如,DeepSeek-R1-Distill-Qwen-32B在处理复杂的推理任务时,推理速度比原始模型提高了约50倍。 且在多个基准测试中,DeepSeek的蒸馏模型表现优异。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024基准测试中实现了55.5%的Pass@1,超越了QwQ-32B-Preview(最先进的开源模型)。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上实现了72.6%的Pass@1,在MATH-500上实现了94.3%的Pass@1。这些结果表明,蒸馏模型在推理任务上不仅能够保持高性能,还能在某些情况下超越原始模型。 图4:DeepSeek蒸馏小模型的性能测评 1.2DeepSeek突破硬件限制,算力“卖铲人”市场全面打开 轻量化架构配合量化剪枝技术,使AI推理首次真正突破硬件限制,部署成本从高端GPU扩展至消费级GPU。根据Mulianju测评,像DeepSeek-R1是一个专注于实时推理的优化版本,拥有15B参数,推理时激活全部15B参数,显存需求约为30GB(FP16精度),单张NVIDIA A100或单张RTX 4090等显卡可满足需求。DeepSeek-R1针对低延迟和高吞吐量进行了优化,适合实时应用场景。像DeepSeek 67B是一个拥有67B参数的大型模型,推理时激活全部67B参数,显存需求约为140GB(FP16精度)。推荐使用4张A100-80G GPU进行多卡并行推理。如果资源有限,可以考虑使用4/8-bit量化技术,显存可降低至原大小的25%~50%(如67B量化后单卡可运行)。其他DeepSeek模型所需硬件参数需求可见下表。 表1:DeepSeek系列模型硬件需求 算力需求重心从训练往推理侧转移,从训练端的中心算力向边缘算力、消费算力和端侧算力倾斜。DeepSeek R1推理模型通过优化算法和计算路径,显著降低了大模型的训练成本,并为大模型在边缘设备及端侧的高效部署提供了有力支撑。 尽管短期内DeepSeek的低成本高效训练方法可能导致训练需求下降,但从长远来看,随着模型的普及和应用场景的扩展,推理需求将显著增长,算力需求将从训练侧向推理侧转移,而DeepSeek的推理成本只有OpenAI的1/50左右,DeepSeek的技术和成本优势将使得算力在推理阶段得到更有效的利用。根据成都华微官方公众号,成都华微正在全力推进DeepSeek R1推理模型的在端侧推理芯片部署。 图5:成都华微R1蒸馏测试代码 DeepSeek带来的平权效应缩小与海外模型的差距,高效的训练方法让算力门槛不断降低。DeepSeek-R1开源仓库采用标准化、宽松的MIT License,完全开源且不限制商用。这使得更多开源模型能够“站在巨人肩膀上”加速迭代,2025年有望成为开源模型快速进步的一年,开源和闭源模型的差距将进一步缩小。 DeepSeek通过减少GPU集群规模、缩短训练周期等方式,降低了训练成本。例如,DeepSeek-V3的训练成本经济,在预训练阶段,训练每万亿tokens仅需180K H800 GPU小时,全模型训练仅需2.788M GPU小时。这种高效的训练方法使得原本可能被浪费的算力得到了更有效的利用。 2云厂商是DeepSeek能力的“放大器”:充足的算力“弹药”与用户覆盖能力 2.1海量算力的重新定价拉开算力平价时代序幕 DeepSeek的出现让AI算力回归平价,海量算力的重新定价将重塑云厂商市场格局。像DeepSeek这样高效、开源的大语言模型的出现,AI算力的需求和应用正在发生显著变化,如前所述,DeepSeek通过模型压缩和蒸馏技术、优化算法和计算路径和硬件与软件的协同优化,显著降低了大模型的训练成本,同时为大模型在边缘设备及端侧的高效部署提供了有力支撑。 DeepSeek全球火爆,云计算市场空间有望在DeepSeek的助推下进一步打开。据国内AI产品榜统计数据,DeepSeek应用自2025年1月11日发布,截止1月31日上线仅21天,日活跃用户DAU 2215万,达ChatGPT日活用户的41.6%,超过豆包的日活用户1695万,DeepSeek在1月份累计获得1.25亿用户,其中80%以上用户来自最后一周,即DeepSeek 7天完成了1亿用户的增长,在没有任何广告投放的情况下。且云厂商纷纷接入DeepSeek等模型,随着调用量的增加,不同规模的云厂商都能因算力需求增长而获得业务机会。 根据中国信息通信研究院发布的《云计算白皮书(2024年)》显示,大模型推动云计算产业开启新一轮增长,我国市场将保持较高活力。2023年,我国云计算市场规模达6165亿元,同比增长35.5%,预计2027年我国云计算市场规模将突破2.1万亿元。且云计算市场空间有望在DeepSeek的助推下进一步打开。 图7:中国云计算市场规模及增速(单位:亿元) 图6:超级产品增长1亿用户所用的时间 2.1.1云厂商市场竞争半径扩大 技术进步带来的AI算力的平价化不仅仅利好传统的AI算力供应商大厂,也会扩展到非传统大型云厂商。DeepSeek拉平大模型之间的差距后,底层仍旧依赖的是在其背后驱动的算力,云计算作为大模型的底层算力支撑,有望持续受益。头部云计算公司陆续接入DeepSeek,或将推动云服务商算力租赁及AI服务收入快速增长,同时DeepSeek开源模型低成本技术的创新,有望加速应用侧的繁荣,云算力需求将进一步上升。 国内外大型云服务厂商纷纷接入DeepSeek模型初见峥嵘,优刻得、金山云等非传统大型云厂商同样宣布适配及上架DeepSeek模型服务。市场也在密切关注云计算厂商的价值重估,DeepSeek的节前火爆出圈,春节后带动云计算板块迎来连日上涨,2月7日,优刻得、并行科技、青云科技、用友网络、浪潮软件、神州数码等多只云计算相关个股涨停,其中2月5日起三日内优刻得上涨约70%,2月3日起五日内金山云收获40%左右涨幅。 2月8日金山云宣布在公有云场景和国资云/政务云场景已支持DeepSeek-R1/V3。公有云场景提供针对DeepSeek-R1蒸馏模型的多种镜像服务,用户可在公有云GPU云服务器、GPU裸金属服务器分别搭建推理服务并进行调参验证;金山云国资云/政务云场景,金山云国资云/政务云平台已正式上架DeepSeek-R1和DeepSeek-V3模型。通过集成金山云自研的内容安全服务,客户可实现模型安全增强与企业级高可用保障。 图8:金山云服务器获取DeepSeek镜像 2.1.2边缘算力厂商迎来新机遇 边缘算力、端侧算力迎来增量空间,拥有边