您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[至顶]:DeepSeek完全实用手册——从技术原理到使用技巧 - 发现报告

DeepSeek完全实用手册——从技术原理到使用技巧

信息技术2025-02-26-至顶C***
DeepSeek完全实用手册——从技术原理到使用技巧

—从 技 术 原 理 到 使 用 技 巧— 2025年2月 组织机构/课题组 出品机构:至顶科技执行机构:至顶AI实验室研究支持:至顶智库团队成员:路飞邓震东刘文轩张建高书葆课题顾问:高飞孙硕媒体支持:至顶网科技行者码客人生Solidot 业务联系扫描二维码说明来意 一、DeepSeek是谁 二、DeepSeek技术路线解析 目录 三、DeepSeek调用与部署 四、如何使用DeepSeek 结语趋势判断 1.DeepSeek简介 公司简介 DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI),具有深厚的软硬件协同设计底蕴。 模型简介 DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达9.8亿。 V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。 R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。 1.DeepSeek简介 R1推理模型简介 推理模型是在基座模型基础上再经过推理数据训练得到的模型,回答问题时会先通过思维链(CoT)逐步思考,再输出结果。DeepSeek R1模型属于一种推理模型。 基座模型 GPT 4oClaude3.5SonnetGemini 2.0 flashDeepSeek V3Qwen 2.5GLM-4-PlusMoonshot v1… 推理模型 o1、o3Claude 3.7 SonnetGemini 2.0 flash thinkingDeepSeek R1QwQ-MaxGLM-ZeroKimi k1.5… 2.DeepSeek为什么这么火 OpenAI的o1模型性能曾在推理模型领域难逢敌手。 DeepSeek-R1模型,在AI模型基准能力的各大榜单中,得分与OpenAI o1模型不相上下。 过去两年中,中国AI模型在业内曾被认为落后于美国模型半年到一年。DeepSeek R1模型的出现终结了中国AI落后的观点。 作为国产模型,DeepSeek对中文支持更好。 2.DeepSeek为什么这么火 低训练成本、低推理成本 从模型训练看,DeepSeek-V3在2048块H800 GPU训练3.7天,换算成单块GPU共278.8万小时,以H800每小时2美元成本计算,最后一轮训练硬件成本仅约558万美元;Meta同规格的Llama 3.1模型约花费9240万美元,相比高出16倍。 从模型推理看,以官方API接入价格为例,对话模型DeepSeek V3价格约为OpenAI GPT-4o价格的十分之一;推理模型DeepSeek R1价格约为OpenAI o1价格的二十分之一。 2.DeepSeek为什么这么火 开源 开源和闭源的区别 •开源模型是将模型技术细节和模型权重免费公开,供全球研究人员研究模型技术和技术人员部署使用。比如DeepSeek系列模型、Llama系列模型。•闭源模型则是部分公开或不公开技术细节,模型大小和模型权重保密。比如OpenAI和百度等。 开源的优劣 与闭源模型的策略相比,将模型开源的策略可以获得更多开发者关注使用和共同开发,利于构建影响力和实现普惠。但难以获得商业利润。 闭源的优劣 将最先进的技术保密,有利于持续保有市场竞争力,实现商业化获利。但吸引开发者较少,且不利于社会整体技术进步。 2.DeepSeek为什么这么火 大模型开源级别 在各家AI模型厂商宣布开源时,开源的程度并不相同。开放源代码促进会(OSI)于2024年10月发布开源AI定义1.0(OSAID 1.0)。OSAID 1.0从模型权重、训练数据、代码、商业使用权、社区协议、符合开源定义等多维度评价开源程度。 2.DeepSeek为什么这么火 业界认可 OpenAI创始人Sam Altman:DeepSeekR1是一个令人印象深刻的模型,尤其是能够以这样的价格提供卓越性能。我们(OpenAI)显然会推出更好的模型,同时,有一个新的竞争对手加入确实让人感到振奋! 微软CEO Satya Nadella:DeepSeek的新模型非常令人印象深刻,他们不仅有效地实现了一个开源模型,实现了推理时间计算,而且计算效率极高。 aAI投资机构a16z创始人Marc Andreessen:DeepSeekR1是他所见过的最令人惊叹、最令人印象深刻的突破之一,是给世界的一份深刻礼物。 Eureka Labs创始人AndrejKarpathy:DeepSeekR1与OpenAI的模型在性能上旗鼓相当。 Perplexity创始人Aravind Srinivas:DeepSeek是人工智能和开源的重大进步。人工智能模型和使用这些模型的产品需要最大限度地寻求真相。输出越虚假,使用这些模型或其输出(直接作为用户)和间接(用于提炼)就越危险。 NVIDIA资深研究经理Jim Fan:DeepSeek不仅开源了一系列模型,更难能可贵的是公开了所有训练细节。 一、DeepSeek是谁 二、DeepSeek技术路线解析 目录 三、DeepSeek调用与部署 四、如何使用DeepSeek 结语趋势判断 二、DeepSeek技术路线解析 R1系列模型训练流程 aR1模型以V3模型作为基座模型训练,因此R1模型继承了V3模型大部分架构特征。 aR1模型的训练过程包括,首先用V3模型训练出一个具有强推理能力的R1 zero模型,R1 zero经过冷启动生成推理数据,随后利用推理数据和SFT数据进行强化学习和SFT等训练过程,最终得到R1模型。 aR1蒸馏模型由Qwen和Llama的共6种不同尺寸的小模型,通过推理数据和非推理数据的组合通过SFT训练而来。 1.成本相关技术 混合专家MoE aDeepSeekV3和R1模型前馈神经网络均采用混合专家(MoE)架构。每个MoE层包含1个共享专家和256个路由专家组成,在运行时每个词元(token)只激活8个路由专家。 a•MoE架构主要包括路由和专家两部分。•传统稠密模型数据都经过单个神经网络处理,MoE稀疏模型的数据则经过路由分配给适合的多个专家模型处理。•与稠密模型相比,MoE模型每个词元只需激活模型中的部分专家,节约计算资源。•不同专家专注于不同任务,处理复杂任务时更有优势。 1.成本相关技术 多头潜在注意力MLA aMLA的核心是对注意力键和值进行低秩联合压缩,减少推理过程中的键值缓存(KV cache),从而降低推理时的内存占用。 a•引入旋转位置编码(RoPE)来保持位置信息的有效表示。•通过低秩压缩技术,将高维输入压缩到低维空间,提高推理效率。•擅长捕捉数据的潜在含义,如语义、因果关系等。•擅长处理更长的上下文。 来源:DeepSeek V3技术报告,至顶AI实验室整理 1.成本相关技术 多词元预测训练MTP a多词元预测是指,在训练过程中,模型不仅预测下一个词元,同时预测多个未来的词元。这种方法通过在共享模型主干上增加多个独立的输出头来实现,并且不增加训练时间和内存消耗。 •多词元预测深度设置为1,除了下一个词元,每个词元会额外预测一个词元。 a•模型分为主体部分和多个头,每个头有自己的RMSnorm、一个Linear和一个Transformer Block。•各个头的预测有依赖关系,主模型计算完后再送给后续的头,从而实现多词元预测。 1.成本相关技术 FP8混合精度训练 a模型训练通常采用FP16或FP32精度的数据格式以保证训练效果,如果换成低精度即可降低存储占用,但往往受到激活、权重和梯度中异常值的限制。 为了解决这个问题,DeepSeek采用了混合精度框架,使用细粒度量化策略、低精度优化器状态等方法以实现增强精度、低精度存储和通信,同时DeepSeek向硬件厂商也提出了硬件设计的相关建议。 2.性能相关技术 强化学习中的群体相对策略优化(GRPO) a近端策略优化算法(PPO)是OpenAI于2017年提出的一种强化学习算法,被用于GPT等多款主流模型训练过程中用于优化模型表现。DeepSeek提出组相对策略优化(GRPO),对PPO改良,提高计算效率,降低内存占用。 a•GRPO移除了PPO中的价值函数。•GRPO将广义优势估计(GAE)改为组归一化优势(GroupComputation)。•GRPO将KL散度移动到损失函数中。 3.热点话题 问:DeepSeekV3成本为550万美元? 答:DeepSeekV3成本并非是550万美元。 aDeepSeekV3技术报告明确指出,预训练、上下文延长、后训练等三个训练过程共花费约558万美元。准确来说,除了公开的训练成本,模型总成本还应考虑人员成本、研发成本、数据成本、其他固定成本等。 3.热点话题 问:DeepSeekR1是蒸馏OpenAI数据训练出来的? 答:没有证据说明DeepSeekR1蒸馏数据来源于OpenAI。 aOpenAI声称掌握证据并指控DeepSeek违反OpenAI服务规定使用其数据用于训练R1模型,但并未拿出有力证据。此前OpenAI曾因违规使用纽约时报数据训练模型被告侵权。此外,业界有其他公司利用OpenAI数据训练自己的模型,但并未取得好的效果。 术语解读-模型蒸馏 a在机器学习领域,模型蒸馏是将知识从大型模型转移到较小模型的过程,虽然大型模型(例如非常深的神经网络或许多模型的集合)比小型模型具有更多的知识容量,但这种容量可能没有得到充分利用。 3.热点话题 问:DeepSeek绕过了CUDA? 答:DeepSeek没有绕过CUDA。 a业界普遍认为CUDA技术体系构成了英伟达在AI计算领域的重要技术壁垒,CUDA生态优势对硬件市场格局具有深远影响。若能突破现有技术生态限制,有助于AI芯片市场多元化发展。DeepSeek采用定制的PTX优化,能更好释放底层硬件性能。从技术架构来看,PTX作为更接近硬件层的中间表示层,其价值在于提供了比CUDA更高灵活性的编程接口。但PTX本质上仍是英伟达GPU架构的专用指令集规范,不同计算架构需要构建适配自身硬件特性的中间层指令系统。 术语解读-CUDA aCUDA全称为计算统一设备架构,是一个专有的并行计算平台和应用程序编程接口。开发者使用CUDA接口,便于关注软件算法,无需关注硬件本身每一步是如何具体运行的。 术语解读-PTX PTX全称为并行线程执行,是Nvidia的CUDA编程环境中使用的低级并行线程执行虚拟机和指令集架构。PTX比CUDA更靠近硬件层。 一、DeepSeek是谁 二、DeepSeek技术路线解析 目录 三、DeepSeek调用与部署 四、如何使用DeepSeek 结语趋势判断 三、DeepSeek调用与部署 DeepSeekR1模型可通过云端调用和本地部署的方式使用 •云端调用 •云端调用,可通过官方API或第三方API直接调用DeepSeek R1模型服务并接入业务中;或者可以在云平台上创建、部署、微调模型,再通过API连接模型调用。•云端调用优势在于,用户无需购置硬件即可按需调用云端模型。 本地部署 •要本地运行模型,用户需下载DeepSeekR1满血版或蒸馏版本模型,通过Ollama、vLLM等工具启动模型,并借助可视化界面工具与用户交互。•本地部署优势在于无网络依赖,适合对数据安全要求高的企业私有化场景,但需满足高性能显卡和服务器的硬件配置要求。 1.云