您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[智研咨询]:2025DeepSeek技术全景解析:重塑全球AI生态的中国力量 - 发现报告

2025DeepSeek技术全景解析:重塑全球AI生态的中国力量

2025-03-06-智研咨询爱***
AI智能总结
查看更多
2025DeepSeek技术全景解析:重塑全球AI生态的中国力量

Deepseek技术全景解析 重塑全球A生态的中国力量 编制:智研咨询 CONTENT 目·录 PART01 DeepSeek企业背景 最全面的产业分析·可预见的行业趋势 DeepSeek背靠资金实力雄厚的幻方量化 2025年1月,DeepSeek发布其最新开源模型DeepSeekRl,再度引发全球人工智能领域关注。DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek背靠资金实力雄厚的幻方量化,DeepSeek创始人为梁文锋,文锋同时也是幻方量化的创始人:幻方量化是国内头部量化私募管理人,旗下有两家百亿量化私募,分别是2015年6月成立的浙江九章资产和2016年2月成立的宁波幻方量化。 DeepSeek大模型不断优化送代 回顾其发展历史,2024年1月,发布第一版大模型一一DeepSeekLLM,这个版本使用传统的Transformer架构,但在训练方面已经明显体现出DeepSeek团队通过不断优化训练策略,达到节约成本,提高效率的思想,这点也在后续的模型送代中被发扬光大,2024年5月,DeepSeek-v2发布,从这一代开始,DeepSeek模型开始使用混合专家(MoE)架构,这是传统Transformer月,DeepSeek-v3上线并开源,v3版本对MoE架构进行了进一步优化,在维持低训练成本的同时,稳定性与多方面性能表现都达到了与领先闭源模型相当的水平。2025年1月,DeepSeek-R1正式发布,R1模型的推理能力得到极大加强,与OpenAl-o1模型不相上下且推理过程完全透明,因此在全球范围备受关注。 PART02 Deepseek模型家族 最全面的产业分析·可预见的行业趋势 DeepSeek-v2模型性能进一步优化 以低成本的DeepSeek-v2,到超低价格的DeenSeek-v3:再到引l起世界广泛关注的DeepSeek-R1,DeenSeek的成功主要依赖于DeepSeek自身深厚的技术积累和持续的技术创新突破。 DeepSeek-v2采用的是MoE架构,全参数量为236B,激活参数量是21B。其采用了两大创新技术:DeepSeekMoE架构和多头潜在注意力(MLA),使得DeepSeek-v2的训练成本大为降低并且提升推理速度。MLA通过将Kev-value缓存压缩为潜在向量来提高推理效率,从而提高吞吐量。DeepSeekMoE架构允许通过稀疏计算进行有效的推理。相比DeepSeekLLM67B(Dense):DeepSeek-V2的性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。 DeepSeek-V2DeepSeek-V2性能 DeepSeek-V3模型性能大幅提升 DeepSeek-V3是一个强大的专家混合(MoE)语言模型,具有671B个总参数,激活参数量为37B。相较历史模型,DeepSeekv3在推理速度上有了大幅提升。此外在目前大模型主流磅旁单中,DeepSeek-v3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。 ⚫Deepseek-v3遵循DeepSeek-v2的设计,采用多头潜在注意力(MLA)和DeepSeekMoE架构。 ⚫采用了无辅助损失的负载均衡策珞,最大限度地减少了由于鼓励负载平衡而引起的性能下降: ⚫引入一个多token预测(MTP)目标,:证明它有利于模型的性能:也可用于推理加速的推测解码: DeepSeek-v3模型训练成本大幅降低 根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在其拥有2048个H800GPU的集群上只需要3.7天,因此,公司的预训练阶段在不到两个月的时间内完成,花费了2664KGPU小时。加上上下文长度扩展的119KGPU小时和后训练的5KGPU小时,DeepSeek-v3完整训练仅花费278.8万GPU小时。 假设H800GPU的租赁价格为每小时2美元,则代表看其总训练成本仅为55了.6方美元。相比同等规模的模型(如GPT-4、GPT-40.Llama3.1),训练成本大幅降低。但DeepSeek团队还特意强调,上述成本仅包括DeepSeek-v3的官方训练,不包括与架构,算法或数据的先前研究和消融实验相关的成本。 核心技术一一无需辅助损失的负载均衡 DeepSeek-V3采用了一种无需辅助损失的负载均衡策略,旨在最大限度地减少因负载均衡优化而对模型性能造成的不利影响MoE模型容易出现“专家负载不均衡”(有的专家忙,有的专家闲),传统的解决方法是加一个辅助损失,但这可能会损害模型性能。DeepSeek-V3引入了一种新方法,通过动态调整每个专家的“偏置项”:来平衡负载。这种方法不依赖辅助损失,减小。 无需辅助损失的负载均衡: Sit,Sit +b; e Topk((sit +bjll ≤ j≤N,),K,),gitotherwise.0 具体而言,为每个专家引入一个偏置项bi,并将其添加到对应的亲和度得分Sit,以确定ToP-K路由。 补充的序列级辅助损失: 其中,平衡因子α是一个超参数,对于DeepseekV3被设置为极小的值;1.表示指示函数;了表示序列中的令牌数量,序刻级平衡损失鼓励在每个序列内实现专家负载的平衡。 核心技术一一多token预测(MTP) 传统语言模型通常只预测下一个token,而Deepseek-v3在训练中采用MTP目标,在每个位置预测多个未来token。这种方式增加训练信号密度,提高数据效率,使模型更好规刻表示,准确预测未来toke门。具体通过多层次模块预测多个附加toke,客模块共享嵌入层和输出头,保持预测因果链,提高推理生成速度,提升模型整体性能。 核心技术一一FP8混合精度训练 通常的大模型训练会采用BF16或FP32江E32精度作为数据计算和存储的格式,来确保较高的训练精度。相比之下,FP8占用的数据位宽仅为FP32的1/4,FP16的1/2,可以提升计算速度,降低对存储的消耗。微软2023年的论文《FP8-LM:TrainingFP8LargeLanguageModels》就提出了一种用于LLM训练的极度优化的FP8混合精度框架。其核心思想是计算、储存和通信(包括正向和反向传播全部使用低精度FP8,以而大大降低系统工作负载。然而,使用FP8格式训练LLM存在数据下溢出或上溢出等挑战以及FP8数据格式较低精度所导致训练失败等问题。 DeepSeek团队在训练DeepSeek-v3时,采用的是混合精度框架,大部分密集计算操作都以FP8格式进行,而少数关键操作则策略性地保留其原始数据格式,以平衡训练效率和数值稳定性。通过使用FP8格式,DeepSeek能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8格式可以显著减少显存的占用,以而提高模型的训练速度 核心技术一一DualPipe算法 题,流水线并行(pipelineparallel,PP)策略应运而生。其通过将一个较大数据批次分解为多个微批次(microbatch),使得每次计算的总耗时减少,从而减少了计算设备所处于的计算和等待两种状态在时间轴上的颗粒度,进而使得每个bubble被缩 在这一背景下,DeepSeek团队在传统PP策略的基出上创新性地提出并应用了DualPipe技术。与传统PP策略相比,DualPipe技术最明显的革新在于其有效地融合了前向和后向计算加速通信:此外,DeepSeek团队还通过调节GPU中流式多处理器(SM的调度来实现对其在计算和通信之间进行精细化分配,进而进一步加速了通信过程。 DeepSeek-R1性能对标OpenAlol正式版 DeepSeek-R1基于DeepSeek-V3训练优化得到,增强了复杂逻辑推理能力,全参数量是6了1B,激活参数37B。在数学、代码自然语言推理等任务上,性能比肩OpenAlo1正式版,并且开源模型权重,引发了全球的广泛关注。 核心技术一一纯强化学习训练 Deepseek-Rl具备以下亮点 (1)纯强化学习训练:基于DeepSeeK-v3应用大规模强化学习,直接将RL应用于基础模型而不依赖监督微调(SFT)作为初始步骤,这种方法允许模型探索解决复杂问题的思维链(CoT),由此开发出DeepSeek-R1-Zero。DeepSeek-Rl-Zero是第一个纯强化学习训练得到的LM,并且展示了自我验证、反思和生成长COTs等功能,标志研究界的一个重要里程碑: 在大语言模型(LLM)的微调过程中,强化学习(RL)扮演着至关重要的角色。传统的近端策喀优化(PPO)算法虽然被广泛应用于LM的微调,但其在处理大规模模型时面临看巨大的计算和存储负担。PP○算法需要维护一个与策略模型大相当的价值网络来估计优势函数,这在大模型场景下会导致显著的内存占用和计算代价。此外,PP0算法在更新策略时可能会导致策略分布发生剧裂变化,以而影响训练的稳定性。为了解决这些问题,DeepSeek提出了一种新的强化学习算法一一组相对策略优化GRPO),旨在减少对价值网络的依赖,同时保持策更新的稳定性和高效性: 算法结构对比 GRPO方法的优势在于: (1减少计算负担:通过避免维护一个与策略模型大小相当的价值网络,GRPO显著降低了训练过程中的内存占用和计算代价。(2)提高训练稳定性:GRP通过组内比较来估计优势函数,减少了策略更新的方差,从而确保了更稳定的学习过程。3)增强策更新的可控性:GRPO引入了KL散度约束,防止策略更新过于剧烈,以而保持了策略分布的稳定性。 资料来源:Deep5eek、智研咨沟整注www.chyxx.com 核心技术一一冷启动数据&多阶段训练策略 (2)冷启动数据&多阶段训练策略:DeepSeek-R1是为解决DeepSeek-R1-Zero存在的问题并进一步提升推理性能而开发的模型,它在训练过程中融入了冷启动数据和多阶段训练策略。 冷启动数据:收集少量高质量长链推理数据,通过SFT初始化模型,提升可读性和性能: 问答等)。最终RL对齐人类偏好(如无害性、有用性)智研咨询 DeepSeek-Rl在多个基准测试中展现出与OpenAl-ol相当的性能水平。在Codeforces和MMLU基准测试中与OpenAl-o1-1217得分相近,尤其是在AIME 2024、MATH-500、Swe-Bench等基准测试中,DeepSeek-Rl还稍微胜出。 核心技术一一模型能力蒸迁移 (3模型能力蒸增迁移:DeepSeekR1的推理能力可以通过蒸馏技术迁移到更小的模型中,并且小模型的基准测试取得很优秀的表现。在DeepSeek-R1蒸馏出的6个小模型中,在保持模型参数量仅为ol-mini同量级的前提下,其知识理解、代码生成等核心能力实现全面反超,通过对标OpenAl-o1-mini的效果上不难看出DeepSeek在模型轻量化领域的突破性创新,同时也为开源社区提供了兼具高性能与低部署成本的新型解决方案。 PART03 Deepseek技术创新 最全面的产业分析·可预见的行业趋势 MoE架构引入多个独立的专家模型 MoE,全称MixtureofExperts,即混合专家模型,是一种用于提高深度学习模型性能和效率的架构:其核心思想是通过引入多个独立的专家模型(Experts),每个输入数据只选择和激活其中的一部分专家模型来进行处理,从而减少计算量,提高训练和推理速度。M0E的概念在1991年就已提出,训练不容易收敛是其在大模型领域应用的主要障碍。 MoE模型结构 MOE模型的主要组成部分包括: (1)专家(Experts):模型中的每个专家