您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机行业DeepSeek掀起算力成本革命,助推AI Agent加速落地 - 发现报告

计算机行业DeepSeek掀起算力成本革命,助推AI Agent加速落地

信息技术2025-02-09-国金证券周***
AI智能总结
查看更多
计算机行业DeepSeek掀起算力成本革命,助推AI Agent加速落地

三个模型:纯强化学习复现o1能力,引发新一轮革命。DeepSeek由幻方量化创立,创始人为梁文峰,2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。2025年1月,以V3为基座,衍生出强化推理版R1-Zero+泛化推理版R1,性能对标OpenAI-o1正式版。 两大贡献:复现o1强化学习效果+实现有限算力的算法创新。1)捅破强化学习用于大模型推理的窗户纸。DeepSeekR1是继openAIo1之后,推理的第二个里程碑。2)根据DeepSeek公开的数据,按照1张H800每小时2美元的租赁成本算,V3预训练成本只有557.6万美金,用1万张H800只需要11天就能训练完,仅使用不到1/10的成本就达到了国际上领先模型的表现,这对当前我国突破算力卡脖子限制具备重要意义。 九大创新:模型创新+系统优化+商业模式开源。 4个模型本身创新点:1)V3基座能力强劲,具备较高的基座模型能力、DeepSeek系统效率、RL调教能力;2)R1-zero模型直接应用RL到基础模型,而不依赖作为初步步骤的监督微调(SFT);3)R1泛化推理模型,通过深度推理SFT数据(本身带推理能力)+通用SFT数据实现推理能力的跨任务泛化;4)通过模型与强化学习环境交互,在没有奖励思维链长度的情况下,自发涌现了反思和长思考能力,带动推理能力提升。 4个系统优化创新点:1)复杂均衡优化:引入动态调整的ExpertBias,只影响专家路由,不产生任何梯度影响;2)通信优化:提出DualPipe算法,精细控制分配给计算和通信的GPUSM数量,保证计算和通信完全重叠,显著减少了L2缓存的使用和对其他SM的干扰,从而提升了系统性能;3)内存优化:启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中,以应对上下文KVCache缓存的问题;4)计算优化:采用组相对策略优化(GRPO)替代传统的近端策略优化(PPO),优势在于无需单独的价值模型、采用基于组的相对优势估计、显著降低内存和计算开销、增强了模型的数学推理能力。 1个商业模式创新点:坚持开源,DeepSeek开源了原生FP8权重,公开深度思考过程、免费允许用户无限制商用、鼓励蒸馏。 行业影响:算力需求仍未见顶,重心向推理侧迁移。1)模型侧:scalinglaw没有失效,还在持续迭代,大概率往推理方向卷。2)算力侧:基座模型仍需云上算力来迭代,云端推理部署需求存在,应用爆发需要规模算力支持访问;3)端侧:应用场景的天然分散性会导致推理需求指数增长,Agent与各类终端、用户入口的加速结合。 投资方向和标的建议: 第一类:用户入口与agent的融合。 1)Agent+C端各类终端入口。①手机:R1本地部署要求大幅降低,内嵌在各种系统、软件中的场景将大幅增加,HarmonyOSNEXT小艺助手接入DeepSeek,建议关注:润和软件、法本信息、软通动力、东方中科、诚迈科技、中科创达、拓维信息等。②智能汽车:低成本高性能AIAgent与座舱结合,显著提升人车智能交互体验的同时,能打造差异化竞争优势,建议关注:黑芝麻智能、地平线机器人、德赛西威、经纬恒润、中科创达、光庭信息。③机器人:消费类机器人与AIAgent集合,提升智能家居用户体验,加速教育用户实现场景扩容。建议关注:萤石网络等。 2)B端软件:B端公司掌握了大量用户入口,并具备品牌优势和壁垒,通过模型接入实现降本增效,同时凭借Deepseek的更低推理成本,未来有望实现增收又增利。建议关注:合合信息、金山办公、同花顺、万兴科技、中望软件等。 第二类:国产算力。算法和软硬件协调发展、形成系统性弯道超车,①华为昇腾产业链:建议关注软通动力、烽火通信、神州数码以及相关配套硬件厂商;②中科院算力产业链:建议关注海光信息、中科曙光、曙光数创、寒武纪等。 风险提示:技术迭代不及预期的风险;市场竞争加剧的风险;人才流失风险的风险;研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险 一、三个模型:纯强化学习复现o1能力,引发新一轮革命 1.1基因根植+加速迭代,DeepSeek正式出圈 前世今生:幻方量化创立,创始人为梁文峰。DeepSeek成立于2023年5月,由量化巨头幻方量化创立,其创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。 2024年5月,DeepSeek-V2发布,成为全球最强开源通用MoE模型。 2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。 2025年1月 ,DeepSeek-R1发布 , 性能对标OpenAI-o1正式版 。 DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。同时DeepSeek开源R1推理模型,允许所有人在遵循MITLicense的情况下,蒸馏R1训练其他模型。 快速出圈:上线20天全球日活就突破2000万。DeepSeek应用于2025年1月11日发布,截止2025年1月31日上线仅21天。春节期间国货之光DeepSeek迅速点燃了全民参与热情,上线20天全球日活就突破2000万,已然成为现在全球增速最快的AI应用。 25M1 全球数据:1)DeepSeek日活跃用户DAU2215万,达ChatGPT日活用户的41.6%,超过豆包的日活用户1695万。2)上线仅21天,凭3370万月活MAU排名全球总榜TOP4。3)截止2025年1月31日DeepSeek霸榜苹果应用商店157个国家/地区的第一名,MAU月活跃用户占比最多的前5国家为:中国30.71%,印度13.59%,印尼6.94%,美国4.34%,法国3.21%。 25M1 国内数据:1)豆包第一7861万MAU、DeepSeek第二3370万MAU、Kimi第三1943万MAU、文小言第四1305万MAU。MAU数据不包括接入DeepSeek的C端应用和模型云服务平台(纳米AI搜索、秘塔AI搜索、硅基流动x华为云)。 图表1:2025年1月AI应用全球日活总榜 图表2:DeepSeek全球增速最快Al应用 1.2三个模型:以V3为基座,衍生强化推理版R1-Zero+泛化推理版R1 DeepSeek的LLM模型分三个版本——基座模型V3、强化推理版R1-Zero、泛化推理版R1。 图表3:DeepSeek的LLM模型分三个版本 1)基座模型V3:V3基座模型总参数为671B,(对比GPT3参数175B、GPT4参数1.76T),有61层transformer、并且用MoE代替传统Transformer模型中的前馈网络(FFN)层,每一层包括大量的细粒度专家,有1个共享专家+256个路由专家。 知识:1)在MMLU、MMLU-Pro和GPOA等教育基准测试中,DeepSeek-V3的表现优于所有其他开源模型 ,在MMLU/MMLU-Pro/GPOA分别达到88.5/75.9/59.1, 性能可与GPT-4o和Claude-Sonnet-3.5等领先的闭源模型相媲美。2)对于事实性基准测试,DeepSeek-V3在英文SimpleQA方面落后于GPT-4o和Claude-Sonnet3.5,但它在中文ChineseSimpleQA表现卓越,适宜中文语言环境和应用场景。 代码、数学和推理:1)DeepSeek-V3在数学相关基准性能变现优越,在MATH-500的表现甚至优于o1-preview。2)在编码相关任务上,DeepSeek-V3在LiveCodeBenc等编码竞赛基准上表现出最佳性能,工程相关表现略低于Claude-Sonnet-3.5,但仍优于其他模型。 2)R1-Zero(强化推理版本):没有warmup阶段、没有监督微调的数据,从DeepSeek-v3基座,直接进行强化学习,技术上比较激进、效果显著、能完美复现o1,但不足之处是没有监督微调的数据启动、可读性差、语言混杂输出。 推理任务:DeepSeek-R1在AIME2024上达到了79.8%的Pass@1分数,略微超过了OpenA1-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%的分数,与OpenA1-o1-1217相当,远远超过了其他模型。 编码任务:DeepSeek-R1在代码竞赛任务中表现出专家级水平,它在Codeforces上获得了2029的Elo评分,超过了96.3%的人类参与者。 工程任务:DeepSeek-R1的表现略微优于DeepSeek-V3,这可以帮助开发者在实际任务中。 知识:在MMLU、MMLU-Pro和GPQADiamond等基准上 ,DeepSeek-R1取得了卓越的成绩 , 显著优于DeepSeek-V3,在MMLU上的得分为90.8%,在MMLU-Pro上的得分为84.0%,在GPOADiamond上的得分为71.5%。虽然它在这些基准上的表现略低于OpenAl-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争优势。 事实基准SimpleQA测评:DeepSeek-R1优于DeepSeek-V3,展示了其在处理基于事实的查询方面的能力。在这一基准上,OpenAl-01超过了4o也出现了类似的趋势。 3)R1(泛化推理版本):基于DeepSeek-v3基座,先用SFT来启动,构建少量Long-CoT(长思维链)数据来微调模型(使模型先跟随样本学习思维链的方法),防止RL早期不稳定和可读性差的问题。第二步再进行和R1-zero一样的强化学习,同时引入语言一致性奖励(减少语言混杂输出的问题)。第三步,生成的深度推理SFT数据再结合通用SFT数据,一起微调大模型,再进行强化学习。 图表4:DeepSeek-V3和DeepSeek-R1与其他代表性模型的比较 二、两大贡献:复现o1强化学习效果+实现有限算力的算法创新 DeepSeek的两大重要贡献,一是捅破强化学习用于大模型推理的窗户纸、二是掀起低成本算力革命,且全球范围率先实现并开源。 1)捅破强化学习用于大模型推理的窗户纸。如果说openAI的o1是推理的第一个里程碑,那DeepSeekR1可以称之为第二个里程碑,堪比2023年初的ChatGPT时刻。 openAIo1:引入新的范式,推动scalinglaw继续往强化学习、推理方向突破。通过强化学习可以识别并纠正自己的错误,将复杂的步骤分解为更简单的,并尝试行不通时换其他方法,这个过程是模型自己学习而非人为干扰。 DeepSeekR1:全球第一个通过强化学习完美复现o1能力的模型。 图表5:OpenAIo1模型性能在训练时间和训练时间计算上均平稳提升 2)实现有限算力下的算法创新。根据DeepSeek公开的数据,按照1张H800每小时2美元的租赁成本算,V3预训练成本只有557.6万美金(仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本),如果用1万张H800只需要11天就能训练完。 如果参数量为671B的DeepSeekV3使用H800训练,整个训练过程仅使用不到280万个GPU小时,相比之下,Llama3405B使用H100的训练时长是3080万GPU小时,DeepSeek仅使用不到1/10的成本就达到了国际上领先模型的表现,这对当前我国突破算力卡脖子限制具备重要意义。目前模型性能/性价比优势显著,模型API服务定价也将调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。 图表6:DeepSeekV3预训练成本测算 图表7:DeepSeekV3模型性价比处于最优范围 三、九大创新:模型创新+系统优化+商业模式开源 模型本身具备4个创新点: 1)基座模型V3性能强大。R1的成功离不开DeepSeek-V3强大的基座模型能力、DeepSeek系统效率、RL调教能力。De