您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:Deepseek:国产AI应用的“诺曼底时刻” - 发现报告
当前位置:首页/行业研究/报告详情/

Deepseek:国产AI应用的“诺曼底时刻”

信息技术2025-02-03-华西证券坚***
AI智能总结
查看更多
Deepseek:国产AI应用的“诺曼底时刻”

仅供机构投资者使用证券研究报告|行业深度研究报告 Deepseek:国产AI应用的“诺曼底时刻” 计算机行业深度 华西计算机团队 2025年2月3日 分析师:刘泽晶分析师:赵宇阳 SACNO:S1120520020002SACNO:S1120523070006 邮箱:liuzj1@hx168.com.cn邮箱:zhaoyy1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 核心逻辑 Deepseek有望改变AI生态 我们认为DeepSeek的成功有望改变现有AI的产业格局,一方面是中国在全球AI产业的竞争形态,另一方面是大模型开源与闭源的竞争形态:1)对于训练而言,最引人注目的自然是FP8的使用。根据深度学习与NLP公众号,DeepSeek-V3是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。2)与OpenAI依赖人工干预的数据训练方式不同,DeepSeekR1采用了R1-Zero路线,直接将强化学习应用于基础模型,无需依赖监督微调(SFT)和已标注数据。3)低成本模型有望引领AI产业“新路径”:开源+MOE。4)开源VS闭源:开源重构AI生态,与闭源共同繁荣下游。 堆算力的AI“老路径”遭到强力挑战 1)NV、博通等大跌意味着纯算力路径依赖被挑战:DeepSeek在没有最高端算力卡并且以极低的价格建立了一个突破性的AI模型,纯算力路径依赖得到挑战;2)国内外科技巨头持续提升capex指引,剑指NVGPU需求高景气,国产Deepseek模型爆火,高端算力/高集群能力并非唯一解;3)国产算力异军突起,充分受益国产模型deepseek崛起。据华为云2月1日消息,硅基流动和华为云双方联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。 2025:端侧AI爆发元年 1)token成本持续降低,AIagent加速元年:1月27日后,Deepseek-V3发布后英伟达股价大跌,与之相对,苹果、Meta、谷歌等应用提供商股价表现明显更好。谷歌、OpenAI、Anthropic、字节跳动等国内外领先大模型厂商纷纷剑指智能体开发,发布ProjectAstra、Operator、ComputerUse、UI-TARS等产品,2025年有望成为AI智能体加速元年。2)相比云端AI,终端AI在成本、能耗、隐私等方面都具有优势。豆包大模型的成功为字节系AI智能终端的爆发提供了有力支撑。 受益标的:AI终端:乐鑫科技、恒玄科技、润欣科技、中科蓝讯、翱捷科技、博士眼镜、亿道信息、云天励飞、天键股份、星宸科技;AI应用:麦迪科技、能科科技、润达医疗、开普云、新致软件、微盟集团、彩讯股份、汉得信息、拓尔思、同花顺、财富趋势、创业黑马、万兴科技;国产算力:中芯国际、海光信息、寒武纪、中科曙光;算力云:金山云、品高股份、优刻得、青云科技等。 风险提示:市场竞争加剧;产品研发不及预期。2 01Deepseek改变行业生态 1.1.Deepseek:AI生产函数的根本性改变 DeepSeek是一家中国人工智能公司,成立于2023年7月17日,总部位于浙江杭州。它由量化资管巨头幻方量化创立,专注于大语言模型(LLM)及相关AI技术的研发。 简单来说,DeepSeek是一款大语言模型(LLM),主打“极致性价比”。它能写代码、解数学题、做自然语言推理,性能比肩OpenAI的顶尖模型o1,但成本却低到离谱——训练费用仅557.6万美元,是GPT-4o的十分之一,API调用成本更是只有OpenAI的三十分之一。 DeepSeek开源模型时间轴国内外应用市场下载排名 20240105: DeepSeekLLM 20240311: DeepSeek-VL 20240617: DeepSeek-Coder- 20241213: DeepSeek-VL2 20250120: DeepSeek-R1 V2 20240205: DeepSeek-Math 20240507: DeepSeek-V2 20241017: DeepSeek-Janus 20241226: DeepSeek-V3 20250127: DeepSeek-Janus- Pro 资料来源:算法工程笔记,编程奇点,华西证券研究所4 1.2.1Deepseek:算法能力被突出(DeepSeek-V3) 对于训练而言,最引人注目的自然是FP8的使用。根据深度学习与NLP公众号,DeepSeek-V3是第一个(至少在开源社区内)成功使用 FP8混合精度训练得到的大号MoE模型。 众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。为了解决以上问题,1)DeepSeek-V3在训练过程中统一使用E4M3格式,并通过细粒度的per-tile(1x128)和per-group(128x128)量化来降低误差。FP8的好处还体现在节省显存上(尤其是激活值)。2)此外,DeepSeek-V3使用BF16来保存优化器状态,以及对部分操作进行选择性重计算 (例如RMSNorm,MLAUp-Proj,SwiGLU)。3)在并行策略上,DeepSeek-V3使用64路的专家并行,16路的流水线并行,以及数据并行 (ZeRO1)为了降低通信开销。4)在算法层面,DeepSeek-V3使用分组路由的方式,限制每个token只会激活4个节点上的专家,从而减半跨节点的通信流量。5)在系统层面,将节点间通信和节点内通信进行流水,最大化使用网络带宽和NVLink带宽。。 DeepSeek-V3的基本架构图DeepSeek-V3的MTP 资料来源:人工智能AB面,华西证券研究所5 1.2.2Deepseek:算法能力被突出(DeepSeekR1) DeepSeekR1的技术关键在于其创新的训练方法。与OpenAI依赖人工干预的数据训练方式不同,DeepSeekR1采用了R1-Zero路线,直接将强化学习应用于基础模型,无需依赖监督微调(SFT)和已标注数据。 R1的总体训练过程如下:1)从base模型开始:使用量少、质量高的冷启动数据(colddata)来sftbase模型,使得base模型可以有个良好的初始化;使用RL提升模型的推理能力;在RL阶段接近收敛时,用这个时候的checkpoint生成高质量的数据,将它们与现有的sft数据混合,创建新的sft数据集;2)再次从base模型开始:使用新创建的sft数据集做finetune;执行二阶段RL;得到最终的r1。 推理价格对比蒸馏模型评测 资料来源:算法工程笔记,华西证券研究所6 1.3低成本模型有望引领AI产业“新路径”:开源+MOE 低训练成本+高性能表现,使得DeepSeek-V3成为国产模型之星 DeepSeek-V3性能表现令人惊叹:不仅全面超越了Llama3.1405B,还能与GPT-4o、Claude3.5Sonnet等顶尖闭源模型正面竞争。更令人瞩目的是,DeepSeek-V3的API价格仅为Claude3.5Sonnet的1/15,堪称“性价比之王”。 DeepSeek-V3的预训练阶段在不到两个月内完成,并花费了2664KGPU小时。加上119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788MGPU小时。假设H800GPU的租赁价格为每GPU小时2美元,总训练成本仅为5.576M美元。 几款主流模型的API价格对比DeepSeek-V3的训练成本(假设H800GPU的租赁价格为每小时2美元) 资料来源:人工智能AB面,华西证券研究所7 1.3低成本模型有望引领AI产业“新路径”:开源+MOE DeepSeek-R1:首个开源、媲美OpenAIo1的推理大模型。DeepSeek-R1展现出了与OpenAIo1相当甚至在某些方面更优的性能。在MATH基准测试上,R1达到了77.5%的准确率,与o1的77.3%相近;在更具挑战性的AIME2024上,R1的准确率达到71.3%,超过了o1的71.0%。在代码领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。 DeepSeek-R1成功蒸馏出多个小型推理模型,其中32B&70B版本可媲美OpenAIo1-mini。蒸馏后的小模型也取得了优异成绩,如 DeepSeek-R1-Distill-Qwen-7B在AIME2024上得分55.5%,超过QwQ-32B-Preview(参考P6)。 主流大模型能力对比R1与其他开源模型对比效果评测 资料来源:腾讯科技,算法工程师笔记,华西证券研究所8 1.3低成本模型有望引领AI产业“新路径”:开源+MOE 根据深度学习与NLP公众号,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。 在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeekVL2并增加了大约9000万个样本。作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。 Janus-Pro70亿参数模型表现好于OpenAI的DALL-E3Janus-Pro不仅可以“文生图”,同样也能对图片进行描述 资料来源:财联社,华西证券研究所9 1.4开源VS闭源:开源重构AI生态,与闭源共同繁荣下游 短期博弈:闭源企业通过垄断获取超额利润,但可能陷入“创新者窘境”;长期博弈:开源通过协作降低技术成本,但需解决商业化难题 (如红帽的订阅模式);混合策略:现代企业常采用“核心闭源+外围开源”(如微软的VSCode)或“开源获客+服务收费”(如 MongoDB)。 开源模型(如DeepSeek):推动技术民主化,适合需要透明性、定制化的场景;闭源模型(如GPT-4):提供“开箱即用”体验,适合追求快速落地、无技术团队的企业。趋势:两者界限逐渐模糊,部分闭源厂商开源轻量版模型(如Google的Gemma),而DeepSeek等开源项目通过商业服务扩大影响力,共同推动AI技术普惠。 开源模型与闭源模型对比训练效率对比 资料来源:两年砍柴,算力魔方,华西证券研究所10 01堆算力的AI“老路径”遭到强力挑战 2.1NV、博通大跌,纯算力路径依赖得到挑战 DeepSeek以极低的价格建立了一个突破性的AI模型,而且没有使用尖端芯片,纯算力路径依赖得到挑战。截止1月27日收盘,AI龙头英伟达创下载入美国金融史有史以来的惨痛大跌,英伟达周一收跌16.97%,市值蒸发近5900亿美元(相当于略超3个AMD或近18个寒武纪),刷新崩盘纪录。 除了英伟达外,所有过去两年里与AI芯片关系密切的“卖铲人”们全部遭到严重冲击。据财联社报道,ASIC芯片概念股博通1月27日收跌17.4%,市值蒸发近2000亿美元。芯片代工厂台积电收跌13.3%,市值蒸发逾1500亿美元。在这轮大跌的上周刚刚因为特朗普官宣“星际之门”AI项目大涨的甲骨文,周一收跌13.79%。除英伟达和博通外,美满电子跌19.1%、美光科技跌11.71%,均是两位数跌幅。 NV市值变化美国前十大市值公司1月27日股价表现 2.2.1国内外科技巨头持续提升capex指引