10版 DeepSeek完全实用手册 从技术原理到使用技巧 2025年2月 组织机构课题组 出品机构:至顶科技 执行机构:至顶AI实验室研究支持:至顶智库 团队成员:路飞邓震东刘文轩张建高书葆课题顾问:高飞孙硕 媒体支持:至顶网科技行者码客人生Solidot 业务联系 扫描二维码说明来意 一、DeepSeek是谁 目录 二、DeepSeek技术路线解析 三、DeepSeek调用与部署四、如何使用DeepSeek结语趋势判断 1DeepSeek简介 公司简介 来源:微信指数DeepSeek DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI)具有深厚的软硬件协同设计底蕴。 DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达98亿。 V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。 R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。 模型简介 1DeepSeek简介 推理模型是在基座模型基础上再经过推理数据训练得到的模型,回答问题时会先通过思维链(CoT)逐步思考,再输出结果。 DeepSeekR1模型属于一种推理模型。 基座模型 GPT4o Claude35Sonnet Gemini20flashDeepSeekV3 Qwen25GLM4PlusMoonshotv1 R1推理模型简介 推理模型 o1、o3 Claude37Sonnet Gemini20flashthinkingDeepSeekR1 QwQMaxGLMZeroKimik15 来源:至顶智库结合公开资料整理绘制 2DeepSeek为什么这么火 OpenAI的o1模型性能曾在推理模型领域难逢敌手。 DeepSeekR1模型,在AI模型基准能力的各大榜单中,得分与OpenAIo1模型不相上下。 过去两年中,中国AI模型在业内曾被认为落后于美国模型半年到一年。DeepSeekR1模型的出现终结了中国AI落后的观点。 性能比肩OpenAIo1模型 作为国产模型,DeepSeek对中文支持更好。 来源:DeepSeekR1技术报告 2DeepSeek为什么这么火 从模型训练看,DeepSeekV3在2048块H800GPU训练37天,换算成单块GPU共2788万小时,以H800每小时2美元成本计算,最后 一轮训练硬件成本仅约558万美元;Meta同规格的Llama31模型约花费9240万美元,相比高出16倍。 从模型推理看,以官方API接入价格为例,对话模型DeepSeekV3价格约为OpenAIGPT4o价格的十分之一;推理模型DeepSeekR1价 格约为OpenAIo1价格的二十分之一。 低训练成本、低推理成本 DeepSeekV3 GPT4o DeepSeekR1 o1 百万token输入价格(命中缓存) 05元 91元 1元 544元 百万token输入价格(未命中缓存) 2元 181元 4元 1087元 输出价格 8元 725元 16元 4348元 来源:DeepSeek、OpenAI官网,至顶AI实验室整理 2DeepSeek为什么这么火 开源 开源和闭源的区别 开源模型是将模型技术细节和模型权重免费公开,供全球研究人员研究模型技术和技术人员部署使用。比如DeepSeek系列模型、Llama系列模型。 闭源模型则是部分公开或不公开技术细节,模型大小和模型权重保密。比如OpenAI和百度等。 开源的优劣 与闭源模型的策略相比,将模型开源的策略可以获得更多开发者关注使用和共同开发,利于构建影响力和实现普惠。但难以获得 商业利润。 闭源的优劣 将最先进的技术保密,有利于持续保有市场竞争力,实现商业化获利。但吸引开发者较少,且不利于社会整体技术进步。 2DeepSeek为什么这么火 大模型开源级别 在各家AI模型厂商宣布开源时,开源的程度并不相同。开放源代码促进会(OSI)于2024年10月发布开源AI定义10(OSAID10)。 OSAID10从模型权重、训练数据、代码、商业使用权、社区协议、符合开源定义等多维度评价开源程度。 OpenAI Meta DeepSeek OSI(OSAID10) 模型权重公开 不公开 公开(有限制) 完全公开 必须公开 训练数据透明 不透明 部分透明 部分透明 尽可能透明 代码开源 闭源 开源(有限制) 完全开源 必须开源 商业使用 仅通过API收费 禁止 允许 允许 社区协议 不支持 有限支持 完全支持 完全支持 符合开源定义 不符合 部分符合 完全符合 完全符合 来源:微信公众号何所思,至顶AI实验室绘制 2DeepSeek为什么这么火 业界认可 OpenAI创始人SamAltman:DeepSeekR1是一个令人印象深刻的模型,尤其是能够以这样的价格提供卓越性能。我们(OpenAI) 显然会推出更好的模型,同时,有一个新的竞争对手加入确实让人感到振奋! 微软CEOSatyaNadella:DeepSeek的新模型非常令人印象深刻,他们不仅有效地实现了一个开源模型,实现了推理时间计算,而且计算效率极高。 AI投资机构a16z创始人MarcAndreessen:DeepSeekR1是他所见过的最令人惊叹、最令人印象深刻的突破之一,是给世界的一份 深刻礼物。 EurekaLabs创始人AndrejKarpathy:DeepSeekR1与OpenAI的模型在性能上旗鼓相当。 Perplexity创始人AravindSrinivas:DeepSeek是人工智能和开源的重大进步。人工智能模型和使用这些模型的产品需要最大限度 地寻求真相。输出越虚假,使用这些模型或其输出(直接作为用户)和间接(用于提炼)就越危险。 NVIDIA资深研究经理JimFan:DeepSeek不仅开源了一系列模型,更难能可贵的是公开了所有训练细节。 一、DeepSeek是谁 目录 二、DeepSeek技术路线解析 三、DeepSeek调用与部署四、如何使用DeepSeek结语趋势判断 基座模型V3 SFT 冷启动 CoT奖励 GRPO 推理提示 拒绝采样 V3SFT数据 CoT提示 推理数据 非推理数据 基座小模型 组合数据 SFT SFT R1zero模型 强化学习 蒸馏模型 R1模型 二、DeepSeek技术路线解析 R1系列模型训练流程 R1模型以V3模型作为基座模型训练,因此R1模型继承了V3模型大 部分架构特征。 R1模型的训练过程包括,首先用V3模型训练出一个具有强推理能力的R1zero模型,R1zero经过冷启动生成推理数据,随后利用推理数据和SFT数据进行强化学习和SFT等训练过程,最终得到R1模型。 R1蒸馏模型由Qwen和Llama的共6种不同尺寸的小模型,通过推理数据和非推理数据的组合通过SFT训练而来。 来源:DeepMind研究科学家HarrisChan,至顶AI实验室整理 1成本相关技术 混合专家MoE DeepSeekV3和R1模型前馈神经网络均采用混合专家(MoE)架构。每个MoE层包含1个共享专家和256个路由专家组成,在运行时每个词元(token)只激活8个路由专家。 输出 路由专家 共享专家 路由 输入 MoE架构主要包括路由和专家两部分。 传统稠密模型数据都经过单个神经网络处理,MoE稀疏模型的数据则经过路由分配给适合的多个专家模型处理。 与稠密模型相比,MoE模型每个词元只需激活模型中的部分专家,节约计算资源。 不同专家专注于不同任务,处理复杂任务时更有优势。 来源:DeepSeekV3技术报告,至顶AI实验室整理 1成本相关技术 多头潜在注意力MLA MLA的核心是对注意力键和值进行低秩联合压缩,减少推理过程中的键值缓存(KVcache),从而降低推理时的内存占用。 引入旋转位置编码(RoPE)来保持位置信息的有效表示。 通过低秩压缩技术,将高维输入压缩到低维空间, 提高推理效率。 擅长捕捉数据的潜在含义,如语义、因果关系等。 擅长处理更长的上下文。 输出推理时缓存 多头注意力 值 键 查询 潜在 输入 来源:DeepSeekV3技术报告,至顶AI实验室整理 1成本相关技术 多词元预测训练MTP 多词元预测是指,在训练过程中,模型不仅预测下一个词元,同时预测多个未来的词元。这种方法通过在共享模型主干上增加多个独立的输出头来实现,并且不增加训练时间和内存消耗。 目标词元 主模型 MTP模块1 MTP模块2 输出头 嵌入层 输入词元 多词元预测深度设置为1,除了下一个词元,每个词元会额外预测一个词元。 模型分为主体部分和多个头,每个头有自己的RMSnorm、一个Linear和一个TransformerBlock。 各个头的预测有依赖关系,主模型计算完后再送给后续的头,从而实现多词元预测。 来源:DeepSeekV3技术报告,至顶AI实验室整理 1成本相关技术 FP8混合精度训练 模型训练通常采用FP16或FP32精度的数据格式以保证训练效果,如果换成低精度即可降低存储占用,但往往受到激活、权重和梯度中异常值的限制。 为了解决这个问题,DeepSeek采用了混合精度框架,使用细粒度量化策略、低精度优化器状态等方法以实现增强精度、低精度存储 和通信,同时DeepSeek向硬件厂商也提出了硬件设计的相关建议。 输出权重梯度 输入 权重 输入梯度 输出梯度 主权重优化器状态 来源:DeepSeekV3技术报告,至顶AI实验室整理 2性能相关技术 强化学习中的群体相对策略优化(GRPO) 近端策略优化算法(PPO)是OpenAI于2017年提出的一种强化学习算法,被用于GPT等多款主流模型训练过程中用于优化模型表现。 DeepSeek提出组相对策略优化(GRPO),对PPO改良,提高计算效率,降低内存占用。 训练模型 策略模型 价值函数 参考模型 冻结模型 策略模型 奖励模型 组归一优势 GRPO移除了PPO中的价值函数。 GRPO将广义优势估计(GAE)改为组归一化优势(GroupComputation)。 GRPO将KL散度移动到损失函数中。 来源:DeepSeekV3技术报告,至顶AI实验室整理 3热点话题 问:DeepSeekV3成本为550万美元? 答:DeepSeekV3成本并非是550万美元。 DeepSeekV3技术报告明确指出,预训练、上下文延长、后训练等三个训练过程共花费约558万美元。准确来说,除了公开的训练成本,模型总成本还应考虑人员成本、研发成本、数据成本、其他固定成本等。 来源:DeepSeekV3技术报告,至顶AI实验室整理 3热点话题 问:DeepSeekR1是蒸馏OpenAI数据训练出来的? 答:没有证据说明DeepSeekR1蒸馏数据来源于OpenAI。 OpenAI声称掌握证据并指控DeepSeek违反OpenAI服务规定使用其数据用于训练R1模型,但并未拿出有力证据。此前OpenAI曾因违 规使用纽约时报数据训练模型被告侵权。此外,业界有其他公司利用OpenAI数据训练自己的模型,但并未取得好的效果。 术语解读模型蒸馏 在机器学习领域,模型蒸馏是将知识从大型模型转移到较小模型的过程,虽然大型模型 (例如非常深的神经网络或许多模型的