您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:详解DeepSeek: 模型训练、优化及数据处理的技术精髓 - 发现报告

详解DeepSeek: 模型训练、优化及数据处理的技术精髓

信息技术2025-02-24--刘***
AI智能总结
查看更多
详解DeepSeek: 模型训练、优化及数据处理的技术精髓

DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日,由知名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术 DeepSeek:大语言模型的特点有哪些? 回答输出长度有限 模型训练存在endtime 无自我认识无自我意识 上下文长度限定记忆力有限 内容token化 大模型训练语料存在一个截止时间 大模型看到的世界与人看到的不太一样 AI大模型目前的记忆力大概是64k ~ 128k AI大模型目前的回答4k ~ 8k,2000~4000字 网上有个段子是“有人问deepseek你是谁,然后回答是gpt” deepseek R1虽然是25年1月发布,但它的知识库截止日期是2023年12月,这就意味着ds可以提供在此日期发布之前的公开信息和常识;需要经过大量清洗、监督微调、反馈强化学习。但对于之后的新闻、事件变化、新事物则无法直接获取或验证。 目前AI大模型均有上下文长度限定;deepseek r1提供64k token上下文长度,对应中文的话大约3万~4万字。目前还不能一次性投喂太长的文档给它,比如:一本完成西游记、或者非常长的文档让它翻译,AI它是没有办法完整读完 目前AI大模型无法一次性完成万字长文,也无法一次性输出5千字,均是模型输出长度限制所致;如果是输出长文,可以尝试先让AI大模型先生成一个目录,然后再根据目录输出对应模块;如果是长文翻译类,则多次输入,或者拆解后多次调用API 训练前需要将文本进行处理,比如切割称为Token的基本单元;比如问ai一个英文单词illegal中有几个字母l,有些指令模型回答为2个; 目前AI大模型不知道自己是谁,也不知道自己是采用什么模型。除非是厂商在后期再微调、或再训练,如果大家问到类似的问题,可能目前的AI大模型会回答错误。 但deepseek r1推理模型是可以回答正确! 解决办法是少问AI是谁、采用什么模型 解决办法是开启联网模式或提示词中补充说明 解决办法是分成多次投喂 解决办法是将任务分解成多次 DeepSeek发展由来 补充1:ChatGPT需要上万张NVIDIA A100显卡,国内主要玩家:百度、字节、腾讯、阿里、商汤、幻方补充2:nvidia官网https://build.nvidia.com/explore/discover 来自杭州深度求索公司,系一家成立于2023年。使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化全资孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。 DeepSeek为什么火:一个足够优秀的模型变得人人免费拥有 一、技术突破:为什么DeepSeek的模型值得关注? 二、开源生态:DeepSeek如何改变开发者社区? 1.模型架构与训练效率优化架构改进:MLA多层注意力架构、FP8混合精度训练框架、DualPipe跨节点通信训练策略:采用混合精度训练(BF16+FP8)和梯度累积策略 1.开放模型与工具链全量开源:DeepSeek开源了完整训练代码、数据清洗Pipeline和领域微调工具包(如DeepSeek-Tuner),极大降低复现和二次开发门槛轻量化部署:提供模型压缩工具(如4-bit量化适配TensorRT-LLM) 2.数据质量与领域适配数据筛选:多模态数据清洗 2.社区驱动创新开发者基于DeepSeek模型快速构建垂直应用金融场景教育场景 领域微调:“领域渐进式微调”(Progressive Domain Fine-tuning)策略 三、行业落地:DeepSeek推动的技术范式迁移 四、行业竞争格局:DeepSeek的“鲶鱼效应” 1.从“通用模型”到“领域专家”传统大模型(如GPT-3.5)依赖Prompt Engineering适配行业需求,而DeepSeek通过预训练阶段嵌入领域知识,减少后期微调成本 1.倒逼闭源模型降价DeepSeek的开源策略迫使国际厂商调整定价。例如,Anthropic的Claude 3 Sonnet API价格在 DeepSeek开源后下调 2.成本革命 2.催化国产AI芯片生态DeepSeek与华为昇腾、寒武纪等厂商深度合作,优化模型在国产硬件的推理性能。例如, 通过模型压缩和高效推理框架,企业可基于单卡部署专业模型,推理成本降至GPT-4 API的1/50 DeepSeek-7B在昇腾910上的吞吐量比A100高 如:某电商客服系统用DeepSeek-7B替代GPT-4,单次交互成本从0.06降至0.001,日均处理量提升10倍。 3.推动AGI技术民主化中小企业和研究机构可基于开源模型快速迭代,无需依赖巨头API。例如,非洲某初创团队用 DeepSeek-7B开发本地化农业咨询AI,成本仅为GPT-4方案的1/20 技术挑战 1.长上下文理解:目前最大支持32K tokens,相比Claude 100K仍有差距。2.多模态扩展:尚未开放图像-文本联合模型,需追赶GPT-4V、Gemini。 商业化平衡 开源模型可能导致企业版变现困难,需探索类似Red Hat的“开源+服务”模式。 DeepSeek核心哪些创新大幅降低训练成本 Point3:模型大、数全、偏科 Point2:分布式并行提效 Point1:大大压缩计算量 模型够大参数多•Llama3.1:405 B•Deepseek:671 B DualPipe跨节点通信•原先:需要等前面stage完成才能干活•优化:优化为双路计算流水线,传输、计算同时进行•计算+50%、传输+20% MLA多层注意力架构•原先:每一层有值且内存挨个计算•优化:前后合并,使用时再放到内存中 数据全且精•优化:精选数据、清洗干净 FP8混合精度训练框架•原先:32位、16位 无辅助损失的负载均衡策略•原先:每个worker干活一样•优化:均衡派单,保证worker有活干 •优化:•不该精确8位(近似值),需要精确还是32位•每128个位,交给会计总账合计保证精度 MTP技术(Multi-Token Prediction多令牌预测)•传统:一次预测一个Token•优化:预测连续多个Token R1蒸馏技术•R1推理模型,给出计算逻辑推理•V3提取推理思路+解题策略•用大模型指导小模型训练,降低推理成本 DeepSeek核心技术架构 2.核心技术突破 1.模型架构 超长上下文建模:支持128K+ tokens窗口,精准捕捉长程依赖自研训练框架:融合高效分布式训练、混合精度优化与灾难性遗忘抑制技术强化学习对齐:基于人类反馈的强化学习(RLHF),提升结果安全性与实用性 多模态深度Transformer:支持文本、代码、数学符号的统一理解与生成动态稀疏激活机制:采用MoE(Mixture of Experts)架构,实现万亿参数级高效推理 3.核心优势 4.应用场景 高效推理:单卡支持千亿参数模型部署,推理速度提升3倍+多任务兼容:原生支持智能体(Agent)架构,实现工具调用与复杂推理持续进化:支持参数高效微调(PEFT),快速适配垂直领域需求 智能问答|代码生成|数据分析|科研计算|多模态交互 DeepSeek的核心版本(不同版本功能亮点) 参考链接:http://www.360doc.com/content/24/0203/15/170868_1113191680.shtml DeepSeek的核心技术(架构示意图) ——持续迭代的工程与创新 对Transformer框架内的注意力模块和前馈网络(FFNs)进行了优化,采用了我们提出的多头潜在注意力(MLA)和DeepSeekMoE技术。 •在注意力机制方面,多头注意力(MHA)的键值(KV)缓存对大型语言模型(LLMs)的推理效率构成了重大障碍。人们已经探索了多种方法来解决这个问题,包括分组查询注意力(GQA)和多查询注意力(MQA)。然而,这些方法在试图减少KV缓存时,往往会牺牲性能。为了实现两全其美,我们引入了MLA,这是一种具备低秩键值联合压缩功能的注意力机制。实证研究表明,MLA相较于MHA具有更优的性能,同时显著减少了推理过程中的KV缓存,从而提高了推理效率。 •对于前馈网络(FFNs),我们采用了DeepSeekMoE架构,该架构采用细粒度的专家分割和共享专家隔离策略,以实现更高的专家专业化潜力。与传统的MoE架构相比,DeepSeekMoE架构具有显著优势,使我们能够以较低的成本训练出强大的模型。由于我们在训练过程中采用了专家并行策略,还设计了补充机制来控制通信开销并确保负载均衡。 DeepSeek的核心技术--MLA减少kv缓存占用空间 ——MLA改进MHA,从而压缩KV缓存,提高推理速度 MLA诞生背景:传统的Transformer模型通常采用多头注意力(MHA),但在生成 多头注意力(MHA)、分组查询注意力(GQA)、多查询注意力(MQA)和多头潜在注意力(MLA)的简化示意图通过将键和值联合压缩到一个潜在向量中,MLA在推理过程中显著减少了键值缓存(KV cache) 过程中,其庞大的键值(KV)缓存会成为限制推理效率的瓶颈。为了减少KV缓存,提出了多查询注意力(MQA)和分组查询注意力(GQA)它们需要的KV缓存规模较小,但性能不及MHA。 对于DeepSeek-V2,我们设计了一种创新的注意力机制,称为多头潜在注意力(MLA)。MLA配备了低秩键值联合压缩功能,其性能优于多头注意力(MHA),但所需的键值缓存(KVcache)量显著减少。 DeepSeek的核心技术--DeepSeekMoE细粒度分割与共享隔离 ——细粒度expert分割,优化路由,多级别负载均衡,提升模型性能 为清晰展示,性能以最佳表现为基准进行了归一化处理。所有对比模型的参数数量和激活参数数量均相同。发现:细粒度的expert分割和共享expert隔离都有助于提升整体性能 基础MoE DeepSeek MoE vs DeepSeekMoE相比MoE有2个核心优化1、FFN维度调小,增加Expert数量(细粒度的Expert分割) 基础的MoE将原来的每个token的单个FFN层变成多个并行的FFN层(对应多个expert),并根据输入生成一个路由到各个FFN的打分,选择topN个Expert,实现在单token运算量没有显著提升的前提下,扩大模型的参数空间的目的。 将expert细分到更细的粒度,以实现更高的专家专业化程度和更准确的知识获取 1、增加提取公用Expert并共享化,其它Expert专注于差异化增加了几个所有token都走的公用Expert,通过让所有token都走这些Expert, 让这些Expert提取通用信息,隔离一些共享expert,以减轻路由专家之间的知识冗余,其他Expert就能更专注于提取差异化的信息。 在不同禁用Top路由Expert比例下的堆叠损失。值得注意的是,DeepSeekMoE对禁用Top路由Expert的比例更为敏感,这表明DeepSeekMoE中被路由Eepert之间的冗余度较低。 DeepSeek的核心技术--Multi-Token预测(MTP) ——MTP一次预测多个token,训练更长更多数据,提升大模型的训练和推理效率 DeepSeek的核心技术--DualPipe调度策略+细粒度的混合精度框架 ——基础设施方面进行一定优化,提升效率 细粒度的混合精度框架 管道并行算法DualPipe DeepSeek提出了一种用于FP8训练的混合精度框架,其中大多数计算密集型操作在FP8精度下进行,而一些关键操作则战略性地保持在原始数据格式以平衡训练效率和数值稳定性;训练过程中,采用英伟达PTX(并行线程执行)汇编级编程替代标准CUDA方案,实现了硬件级