AI智能总结
CONTENT DeepSeek企业背景 Deepseek模型家族 Deepseek技术创新 目 Deepseek商业模式 · Deepseek应用场景 AI大模型市场现状 Deepseek对Al行业影响总结 智研咨询 柯品行研报告·专项定制·月度专题·市场池位证明·专精装新申报·可研报告·商业计划书·产业规划三 INTELIGENCE RESEARC4 CROU 最全面的产业分析·可预见的行业趋势 DeepSeek背靠资金实力雄厚的幻方量化 2025年1月,DeepSeek发布其最新开源模型DeepSeekRl,再度引发全球人工智能领域关注。DeepSeek,全称杭州深度求索 人工智能基础技术研究有限公司,成立于2023年7月17日,一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek背靠资金实力雄厚的幻方量化,DeepSeek创始人为梁文锋,文锋同时也是幻方量化的创始人:幻方量化是 国内头部量化私募管理人,旗下有两家百亿量化私募,分别是2015年6月成立的浙江九章资产和2016年2月成立的宁波幻方量化。 Deepseek公司简介 DeepSeek股权结构 宁波程恩企业管埋咨询合伙企业(有限合傻} 梁文锋 1% %66 北京 杭州深度求索人工智能基础技术研究有限公司 DeepSeek位 于浙江杭州市: 100% 0.1% 成立于2023年7月。 北京深度求索人工智能基础技术研究有限公司 宁渡程采企业管理咨询合伙企业(有限台伙) 南沟戏品 资料叉源:爱企ww.chyxx.com DeepSeek大模型不断优化送代 回顾其发展历史,2024年1月,发布第一版大模型一一DeepSeekLLM,这个版本使用传统的Transformer架构,但在训练方面 已经明显体现出DeepSeek团队通过不断优化训练策略,达到节约成本,提高效率的思想,这点也在后续的模型送代中被发扬光 大,2024年5月,DeepSeek-v2发布,从这一代开始,DeepSeek模型开始使用混合专家(MoE)架构,这是传统Transformer 月,DeepSeek-v3上线并开源,v3版本对MoE架构进行了进一步优化,在维持低训练成本的同时,稳定性与多方面性能表现都达到了与领先闭源模型相当的水平。2025年1月,DeepSeek-R1正式发布,R1模型的推理能力得到极大加强,与OpenAl-o1模 型不相上下且推理过程完全透明,因此在全球范围备受关注。 智研咨询 柯品行研报告·专项定制·月度专题·市场池位证明·专精装新申报·可研报告·商业计划书·产业规划三 INTELIGENCE RESEARC4 CROU 最全面的产业分析·可预见的行业趋势 DeepSeek-v2模型性能进一步优化 以低成本的DeepSeek-v2,到超低价格的DeenSeek-v3:再到引l起世界广泛关注的DeepSeek-R1,DeenSeek的成功主要依赖于 DeepSeek自身深厚的技术积累和持续的技术创新突破。 DeepSeek-v2采用的是MoE架构,全参数量为236B,激活参数量是21B。其采用了两大创新技术:DeepSeekMoE架构和多头潜 在注意力(MLA),使得DeepSeek-v2的训练成本大为降低并且提升推理速度。MLA通过将Kev-value缓存压缩为潜在向量来提高推理效率,从而提高吞吐量。DeepSeekMoE架构允许通过稀疏计算进行有效的推理。相比DeepSeekLLM67B(Dense):DeepSeek-V2的性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。 DeepSeek-V2性能 DeepSeek-V2 60 LLaMA 2 Family LLaMA 3 Family Mixtral Family Command R Family Qwen1.5 Family P LLaMA 1 33B 55 LLaMA 2 13B 80 40 100 60 ActivatedParameters (Billions) wwww.chyxx.com DeepSeek-V3模型性能大幅提升 DeepSeek-V3是一个强大的专家混合(MoE)语言模型,具有671B个总参数,激活参数量为37B。相较历史模型,DeepSeek v3在推理速度上有了大幅提升。此外在目前大模型主流磅旁单中,DeepSeek-v3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。 100 90.2 Deepseek-v3遵循DeepSeek-v2 80 的设计,采用多头潜在注意力 75.9 (MLA)和DeepSeekMoE架构。 (%) 59.1 80 采用了无辅助损失的负载均衡策珞,最大限度地减少了由于鼓励 51.6 / Percentile 42.0 41.2 负载平衡而引起的性能下降: 39.2 15. Accuracy 引入一个多token预测(MTP)目 24.835 : 22.p23 826,5 71.331.1 80.3 标,:证明它有利于模型的性能:也可用于推理加速的推测解码: MMILU-Pro GPQA-Diamnnd(Pa1) MATH 500 ATME 2024 Codeforces SWE-bench Verified (mv) (eM) IE/) (t&sm) 签料来源:Dee5eek、智研咨沟整理 DeepSeek-v3模型训练成本大幅降低 根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要180KH800GPU小时,也就是说,在其拥有2048个H800GPU的集群上只需要3.7天,因此,公司的预训练 阶段在不到两个月的时间内完成,花费了2664KGPU小时。加上上下文长度扩展的119KGPU小时和后训练的5KGPU小时, DeepSeek-v3完整训练仅花费278.8万GPU小时。 假设H800GPU的租赁价格为每小时2美元,则代表看其总训练成本仅为55了.6方美元。相比同等规模的模型(如GPT-4、GPT-40. Llama3.1),训练成本大幅降低。但DeepSeek团队还特意强调,上述成本仅包括DeepSeek-v3的官方训练,不包括与架构, 算法或数据的先前研究和消融实验相关的成本。 DeepSeek-V3的训练成本(假设H800的租赁价格为2美元/GPU小时) 预训练 多token预测(MTP 无张虽并行TP 带宽限制 瓷科来源:Deepseek、智研咨询整理wtw.chyxx.com 核心技术一一无需辅助损失的负载均衡 DeepSeek-V3采用了一种无需辅助损失的负载均衡策略,旨在最大限度地减少因负载均衡优化而对模型性能造成的不利影响 MoE模型容易出现“专家负载不均衡”(有的专家忙,有的专家闲),传统的解决方法是加一个辅助损失,但这可能会损害模型性能。DeepSeek-V3引入了一种新方法,通过动态调整每个专家的“偏置项”:来平衡负载。这种方法不依赖辅助损失,减 小。 无需辅助损失的负载均衡: Sit,Sit +b; e Topk((sit +bjll ≤ j≤N,),K,), 具体而言,为每个专家引入一个偏置项bi,并将其 git otherwise. 添加到对应的亲和度得分Sit,以确定ToP-K路由。 fiP LBal 补充的序列级辅助损失: N. K,T 其中,平衡因子α是一个超参数,对于Deepseek V3被设置为极小的值;1.表示指示函数;了表示 =1 Si,t Sit 序列中的令牌数量,序刻级平衡损失鼓励在每个序列内实现专家负载的平衡。 Pi si,t =1 资-来源:Deepseek、智研咨询整理ww.chyxx.com 核心技术一一多token预测(MTP) 传统语言模型通常只预测下一个token,而Deepseek-v3在训练中采用MTP目标,在每个位置预测多个未来token。这种方式增 加训练信号密度,提高数据效率,使模型更好规刻表示,准确预测未来toke门。具体通过多层次模块预测多个附加toke,客模块共享嵌入层和输出头,保持预测因果链,提高推理生成速度,提升模型整体性能。 MTP实现的示意图 + LrTP RMSNorm RMSNorm RMSNorm RMSNorm Embedding Layer Embedding Layer Embedding Layer Shored 1 Shored Input Tokens t4 t2 t4 ts t6 ti tz t3 t3 盗米源: DeSeek,智研咨询整理 ww.chxx.com 核心技术一一FP8混合精度训练 通常的大模型训练会采用BF16或FP32江E32精度作为数据计算和存储的格式,来确保较高的训练精度。相比之下,FP8占用的 数据位宽仅为FP32的1/4,FP16的1/2,可以提升计算速度,降低对存储的消耗。微软2023年的论文《FP8-LM:TrainingFP8 LargeLanguageModels》就提出了一种用于LLM训练的极度优化的FP8混合精度框架。其核心思想是计算、储存和通信(包括 正向和反向传播全部使用低精度FP8,以而大大降低系统工作负载。然而,使用FP8格式训练LLM存在数据下溢出或上溢出等挑战以及FP8数据格式较低精度所导致训练失败等问题。 DeepSeek团队在训练DeepSeek-v3时,采用的是混合精度框架,大部分密集计算操作都以FP8格式进行,而少数关键操作则策 略性地保留其原始数据格式,以平衡训练效率和数值稳定性。通过使用FP8格式,DeepSeek能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8格式可以显著减少显存的占用,以而提高模型的训练速度 DeepSeek-V3混合精度框架示意图 DeepSeek-V3 Fprop To BF16 ToFP8 Input BF16 FP32 To FP8 Weight Dgrad To BF16 To FP8 Input Gradient FP32 rww.chyxx.com 2己智研咨询 核心技术一一DualPipe算法 题,流水线并行(pipelineparallel,PP)策略应运而生。其通过将一个较大数据批次分解为多个微批次(microbatch),使 得每次计算的总耗时减少,从而减少了计算设备所处于的计算和等待两种状态在时间轴上的颗粒度,进而使得每个bubble被缩 在这一背景下,DeepSeek团队在传统PP策略的基出上创新性地提出并应用了DualPipe技术。与传统PP策略相比,DualPipe 技术最明显的革新在于其有效地融合了前向和后向计算加速通信:此外,DeepSeek团队还通过调节GPU中流式多处理器(SM的调度来实现对其在计算和通信之间进行精细化分配,进而进一步加速了通信过程。 Dual Pipe DualPipe算法示意图 ATTN(W)A MLP(W)A MLP(F)△ ATTN(B)A COMBINE(F)A ATTN(F)A PP COMBINE(B)A DISPATCH(B)A Forward chunk Backwardchunk Forward Backward Overlapped forward&Backward DeepSeek-R1性能对标OpenAlol正式版 DeepSeek-R1基于Dee