2 智研咨询 YTELIGENCERESEARC4GROU 2025 NAHREPR Deepseek技术全景解析 重塑全球A生态的中国力量 编制:智研咨询 wwwchyxxcom服务热线:400700938301060343812 CONTENT扫品行报告专项定制月度专顾市场也位证明专精特新中报可研报告商业计划书产业视划三 01 DeepSeek企业背景 02Deepseek模型家族 03 Deepseek技术创新 目 04Deepseek商业模式 05Deepseek应用场景 录 06 AI大模型市场现状 07 Deepseek对Al行业影响总结 wwwchyxxcom服务热线:400700938301060343812 2 智研咨询柯品行研报告专项定制月度专题市场池位证明专精装新申报可研报告商业计划书产业规划三 INTELIGENCERESEARC4CROU PART01 DeepSeek企业背景 最全面的产业分析可预见的行业趋势 wwwchyxxcom服务热线:400700938301060343812 11DeepSeek基本情况deepseek己智研咨询 DeepSeek背靠资金实力雄厚的幻方量化 2025年1月,DeepSeek发布其最新开源模型DeepSeekRl,再度引发全球人工智能领域关注。DeepSeek,全称杭州深度求索 人工智能基础技术研究有限公司,成立于2023年7月17日,一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek背靠资金实力雄厚的幻方量化,DeepSeek创始人为梁文锋,文锋同时也是幻方量化的创始人:幻方量化是 国内头部量化私募管理人,旗下有两家百亿量化私募,分别是2015年6月成立的浙江九章资产和2016年2月成立的宁波幻方量化。 Deepseek公司简介 DeepSeek股权结构 宁波程恩企业管埋咨询合伙企业(有限合傻 梁文锋 66 1 杭州深度求索人工智能基础技术研究有限公司 100 01 北京深度求索人工智能基础技术研究有限公司 宁渡程采企业管理咨询合 伙企业(有限台伙 北京 DeepSeek位 于浙江杭州市: 成立于2023年 7月。 南沟戏品 资料叉源:爱企wwchyxxcom 12Deepseek发展历程 deepseek 己智研咨询 DeepSeek大模型不断优化送代 回顾其发展历史,2024年1月,发布第一版大模型一一DeepSeekLLM,这个版本使用传统的Transformer架构,但在训练方面 已经明显体现出DeepSeek团队通过不断优化训练策略,达到节约成本,提高效率的思想,这点也在后续的模型送代中被发扬光 大,2024年5月,DeepSeekv2发布,从这一代开始,DeepSeek模型开始使用混合专家(MoE)架构,这是传统Transformer 月,DeepSeekv3上线并开源,v3版本对MoE架构进行了进一步优化,在维持低训练成本的同时,稳定性与多方面性能表现都 达到了与领先闭源模型相当的水平。2025年1月,DeepSeekR1正式发布,R1模型的推理能力得到极大加强,与OpenAlo1模 型不相上下且推理过程完全透明,因此在全球范围备受关注。 咨询 DeepSeek发展历程Deepseek模型家族 正式发布 宣布开源第二推理模型DeepSeekRldeepseek DccpSeek代MoE大模型DeepSeekRlLite模型,并同步 成立DeepSeekv2预览版正式上线开源模型权重DeepSeekRl 2023年了月2024年5月2024年11月2025年1月Deep5eekV3 DeepSeekCoderv2 DeepSeekVL 2024年1月2024年9月2024年12月Deep5eekv2 发布第一版大合并DeepSeekCoderv2宣布DeepSeekV3DeepSeekCoder 模型和DeepSeekv2Chat两首个版本上线并同DeepSeekMath DeepSeekLLM个模型,升级推出全新的步开源模型权币DeepSeekLLM Deepseekv25新模型 资料宋源:智研咨淘整理wwwchyxxcom 2 智研咨询柯品行研报告专项定制月度专题市场池位证明专精装新申报可研报告商业计划书产业规划三 INTELIGENCERESEARC4CROU PART02 Deepseek模型家族 最全面的产业分析可预见的行业趋势 wwwchyxxcom服务热线:400700938301060343812 21DeepSeekv2模型deepseek己智研咨询 DeepSeekv2模型性能进一步优化 以低成本的DeepSeekv2,到超低价格的DeenSeekv3:再到引l起世界广泛关注的DeepSeekR1,DeenSeek的成功主要依赖于 DeepSeek自身深厚的技术积累和持续的技术创新突破。 DeepSeekv2采用的是MoE架构,全参数量为236B,激活参数量是21B。其采用了两大创新技术:DeepSeekMoE架构和多头潜 在注意力(MLA),使得DeepSeekv2的训练成本大为降低并且提升推理速度。MLA通过将Kevvalue缓存压缩为潜在向量来提高推理效率,从而提高吞吐量。DeepSeekMoE架构允许通过稀疏计算进行有效的推理。相比DeepSeekLLM67B(Dense): DeepSeekV2的性能更强,同时节省了425的训练成本,减少了933的KV缓存,最大生成吞吐量提高到576倍。 TrainingCostsKGPUHoursTTokens DeepSeek67B saving425of DeepSekV2 trainingcosts 50 100 150 200 250 00E KVCacheforGenerationKBToken DeepSeek67B reduclngKVcacheby933 DeepSeekV2 100 200 300 400 MaximumGenerationThroughputTokensSec DeepSeek67B ZAaadaad 576ofmaximumthroughput 1000020000300004000050000 DDeeepeSpeSekeVe2性k能V2 研咨询 80 DeepSeekV2 Mixtral8x22B LLaMA370B CommandR DBRX Qwen1572B DeepSeek67B Qwen1532B Grok1 70 Mixtral8x7B LLaMA270B CommandR 65LLaMA38B LLaMA165B 6rformance0 P LLaMA234B LLaMA1Family Mistral7B LLaMA2Family LLaMA3FamilyMixtralFamily LLaMA133B 55 CommandRFamily Qwen15Family LLaMA213B 0 20 40 60 80 100 ActivatedParametersBillions 资料来源:DeepSeek、智研咨淘整理wwwwchyxxcom 22DeepSeekv3模型deepseek2智研咨询 DeepSeekV3模型性能大幅提升 DeepSeekV3是一个强大的专家混合(MoE)语言模型,具有671B个总参数,激活参数量为37B。相较历史模型,DeepSeek v3在推理速度上有了大幅提升。此外在目前大模型主流磅旁单中,DeepSeekv3在开源模型中位列榜首,与世界上最先进的闭源 模型不分伯仲。 DeepSeekv3性能 Deepseekv3遵循DeepSeekv2 的设计,采用多头潜在注意力 MLA)和DeepSeekMoE架构。 DeepSeekV3 DeepSeekV25 Qwen3572BInst Llama31405BInst GPT4o0513 Claude35Sonnet1022 100 902 80 80 759 80 591 516 420 412 392 15 Accuracy 24835 22p238265 713311 803 20 93 MMILUPro eM GPQADiamnnd Pa1 MATH500 ATME2024 IE tsm Codeforces mv SWEbenchVerified 采用了无辅助损失的负载均衡策珞,最大限度地减少了由于鼓励负载平衡而引起的性能下降: 引入一个多token预测(MTP)目 标,:证明它有利于模型的性能:也可用于推理加速的推测解码: 签料来源:Dee5eek、智研咨沟整理wwwchyxxcom 22DeepSeekv3模型deepseek己智研咨询 DeepSeekv3模型训练成本大幅降低 根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件协同设计实现。在预训练阶段,每万亿个token上训练 DeepSeekV3只需要180KH800GPU时,也就是说,在其拥有2048个H800GPU集群上只需要37天,因此,公司预训练 阶段在不到两个月时间内完成,花费了2664KGPU时。加上上下文长度扩展119KGPU时和后训练5KGPU时, DeepSeekv3完整训练仅花费2788万GPU时。 假设H800GPU租赁价格为每时2美元,则代表看其总训练成本仅为55了6方美元。相比同等规模模型(如GPT4、GPT40 Llama31),训练成本大幅降低。但DeepSeek团队还特意强调,上述成本仅包括DeepSeekv3官方训练,不包括与架构, 算法或数据先前研究和消融实验相关成本。 DeepSeekV3训练成本(假设H800租赁价格为2美元GPU时) 训练成本 预训练 上下文扩展 后训练 总计 H800GPU时 2664K 119K 5K 2788K 美元 5328M 0238M 001M 5576M DDeeeeppSeSeekev3k节V省3训练成本方法 UeepSeekMoEMLA DualPipe 低精度FPB训练 模型结构Architecture 模型训练方式PreTrain针对性GPU优化 无需辅助损失负载均衡 AlLToALL通信内核 IBNVLink PTX语言 多token预测(MTP 无张虽并行TP 带宽限制 瓷科来源:Deepseek、智研咨询整理wtwchyxxcom SitSitbeTopksitbjlljNK git 0 otherwise 具体而言,为每个专家引入一个偏置项bi,并将其 添加到对应亲和度得分Sit,以确定ToPK路由。 无需辅助损失负载均衡: 22DeepSeekv3模型deepseek己智研咨询 核心技术一一无需辅助损失负载均衡 DeepSeekV3采用了一种无需辅助损失负载均衡策略,旨在最大限度地减少因负载均衡优化而对模型性能造成不利影响 MoE模型容易出现“专家负载不均衡”(有专家忙,有专家闲),传统解决方法是加一个辅助损失,但这可能会损害模 型性能。DeepSeekV3引入了一种新方法,通过动态调整每个专家“偏置项”:来平衡负载。这种方法不依赖辅助损失,减 。 LBal fiP N KT 1 Sit Sit Pi sit 1 补充序列级辅助损失: 其中,平衡因子是一个超参数,对于Deepseek V3被设置为极值;1表示指示函数;了表示 序列中令牌数量,序刻级平衡损失鼓励在每个序列内实现专家负载平衡。 资来源:Deepseek、智研咨询整理wwchyxxcom 22Deepseekv3模型deepseek己智研咨询 核心技术一一多token预测MTP) 传统语言模型通常只预测