行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

DeepSeek完全实用手册——从技术原理到使用技巧

信息技术2025-02-26-至顶C***

DeepSeek是谁

DeepSeek全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月，是幻方量化旗下的AI公司，专注于实现通用人工智能（AGI），具有深厚的软硬件协同设计底蕴。DeepSeek共研发开源十余款模型，目前最受关注的有V3对话模型和R1推理模型，分别于2024年12月26日和2025年1月20日先后发布。

DeepSeek技术路线解析

R1系列模型训练流程：以V3模型作为基座模型训练，包括冷启动、SFT、强化学习等步骤。
成本相关技术：采用混合专家（MoE）架构、多头潜在注意力（MLA）、多词元预测训练（MTP）、FP8混合精度训练等技术降低训练和推理成本。
性能相关技术：采用群体相对策略优化（GRPO）等技术提升模型推理能力。

DeepSeek调用与部署

云端调用：可通过官方API或第三方API直接调用DeepSeek R1模型服务，或通过云平台创建、部署、微调模型。
本地部署：需下载模型，通过Ollama、vLLM等工具启动模型，并借助可视化界面工具与用户交互。

如何使用DeepSeek

独立使用：通过自然语言对话获取核心服务，典型场景包括文本创作、信息咨询、知识推理等。
工具组合：基于文本指令驱动的工具生态协同，实现“DeepSeek+”创新工作流，典型组合形态包括办公增效、创意设计、AI音视频、编程辅助等。

趋势判断

开源模型将推动AI应用生态的加速繁荣，大幅降低传统企业与创业者接入AI的成本与门槛。
推理模型或将成为主流形态，尤其适用于多环节、结构复杂的任务。
每项业务都需要接入至少一种AI模型，每位工作者都需要能跑端侧AI的个人电脑，每个公司都需建设能支撑AI工作流的AI算力平台。

—从技术原理到使用技巧— 2025年2月组织机构/课题组出品机构：至顶科技执行机构：至顶AI实验室研究支持：至顶智库团队成员：路飞邓震东刘文轩张建高书葆课题顾问：高飞孙硕媒体支持：至顶网科技行者码客人生Solidot 业务联系扫描二维码说明来意一、DeepSeek是谁二、DeepSeek技术路线解析目录三、DeepSeek调用与部署四、如何使用DeepSeek 结语趋势判断 1.DeepSeek简介公司简介 DeepSeek全称杭州深度求索人工智能基础技术研究有限公司，简称深度求索，成立于2023年7月，是幻方量化旗下的AI公司，专注于实现通用人工智能（AGI）,具有深厚的软硬件协同设计底蕴。模型简介 DeepSeek共研发开源十余款模型，目前最受关注的有V3对话模型和R1推理模型，分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出，两次模型发布都造成了后续DeepSeek关注度的飙升，12月28日DeepSeek指数达到约6000万，1月31日达9.8亿。 V3：是采用混合专家架构（MoE）的高性能对话模型，支持多任务处理并在代码生成、数学推理等场景表现优异。 R1：是基于强化学习训练的推理模型，专注于代码生成和复杂数学问题解决，推理能力通过蒸馏技术可迁移至小型模型。 1.DeepSeek简介 R1推理模型简介推理模型是在基座模型基础上再经过推理数据训练得到的模型，回答问题时会先通过思维链（CoT）逐步思考，再输出结果。DeepSeek R1模型属于一种推理模型。基座模型 GPT 4oClaude3.5SonnetGemini 2.0 flashDeepSeek V3Qwen 2.5GLM-4-PlusMoonshot v1… 推理模型 o1、o3Claude 3.7 SonnetGemini 2.0 flash thinkingDeepSeek R1QwQ-MaxGLM-ZeroKimi k1.5… 2.DeepSeek为什么这么火 OpenAI的o1模型性能曾在推理模型领域难逢敌手。 DeepSeek-R1模型，在AI模型基准能力的各大榜单中，得分与OpenAI o1模型不相上下。过去两年中，中国AI模型在业内曾被认为落后于美国模型半年到一年。DeepSeek R1模型的出现终结了中国AI落后的观点。作为国产模型，DeepSeek对中文支持更好。 2.DeepSeek为什么这么火低训练成本、低推理成本从模型训练看，DeepSeek-V3在2048块H800 GPU训练3.7天，换算成单块GPU共278.8万小时，以H800每小时2美元成本计算，最后一轮训练硬件成本仅约558万美元；Meta同规格的Llama 3.1模型约花费9240万美元，相比高出16倍。从模型推理看，以官方API接入价格为例，对话模型DeepSeek V3价格约为OpenAI GPT-4o价格的十分之一；推理模型DeepSeek R1价格约为OpenAI o1价格的二十分之一。 2.DeepSeek为什么这么火开源开源和闭源的区别 •开源模型是将模型技术细节和模型权重免费公开，供全球研究人员研究模型技术和技术人员部署使用。比如DeepSeek系列模型、Llama系列模型。•闭源模型则是部分公开或不公开技术细节，模型大小和模型权重保密。比如OpenAI和百度等。开源的优劣与闭源模型的策略相比，将模型开源的策略可以获得更多开发者关注使用和共同开发，利于构建影响力和实现普惠。但难以获得商业利润。闭源的优劣将最先进的技术保密，有利于持续保有市场竞争力，实现商业化获利。但吸引开发者较少，且不利于社会整体技术进步。 2.DeepSeek为什么这么火大模型开源级别在各家AI模型厂商宣布开源时，开源的程度并不相同。开放源代码促进会（OSI）于2024年10月发布开源AI定义1.0（OSAID 1.0）。OSAID 1.0从模型权重、训练数据、代码、商业使用权、社区协议、符合开源定义等多维度评价开源程度。 2.DeepSeek为什么这么火业界认可 OpenAI创始人Sam Altman：DeepSeekR1是一个令人印象深刻的模型，尤其是能够以这样的价格提供卓越性能。我们（OpenAI）显然会推出更好的模型，同时，有一个新的竞争对手加入确实让人感到振奋！微软CEO Satya Nadella：DeepSeek的新模型非常令人印象深刻，他们不仅有效地实现了一个开源模型，实现了推理时间计算，而且计算效率极高。 aAI投资机构a16z创始人Marc Andreessen：DeepSeekR1是他所见过的最令人惊叹、最令人印象深刻的突破之一，是给世界的一份深刻礼物。 Eureka Labs创始人AndrejKarpathy：DeepSeekR1与OpenAI的模型在性能上旗鼓相当。 Perplexity创始人Aravind Srinivas：DeepSeek是人工智能和开源的重大进步。人工智能模型和使用这些模型的产品需要最大限度地寻求真相。输出越虚假，使用这些模型或其输出（直接作为用户）和间接（用于提炼）就越危险。 NVIDIA资深研究经理Jim Fan：DeepSeek不仅开源了一系列模型，更难能可贵的是公开了所有训练细节。一、DeepSeek是谁二、DeepSeek技术路线解析目录三、DeepSeek调用与部署四、如何使用DeepSeek 结语趋势判断二、DeepSeek技术路线解析 R1系列模型训练流程 aR1模型以V3模型作为基座模型训练，因此R1模型继承了V3模型大部分架构特征。 aR1模型的训练过程包括，首先用V3模型训练出一个具有强推理能力的R1 zero模型，R1 zero经过冷启动生成推理数据，随后利用推理数据和SFT数据进行强化学习和SFT等训练过程，最终得到R1模型。 aR1蒸馏模型由Qwen和Llama的共6种不同尺寸的小模型，通过推理数据和非推理数据的组合通过SFT训练而来。 1.成本相关技术混合专家MoE aDeepSeekV3和R1模型前馈神经网络均采用混合专家（MoE）架构。每个MoE层包含1个共享专家和256个路由专家组成，在运行时每个词元（token）只激活8个路由专家。 a•MoE架构主要包括路由和专家两部分。•传统稠密模型数据都经过单个神经网络处理，MoE稀疏模型的数据则经过路由分配给适合的多个专家模型处理。•与稠密模型相比，MoE模型每个词元只需激活模型中的部分专家，节约计算资源。•不同专家专注于不同任务，处理复杂任务时更有优势。 1.成本相关技术多头潜在注意力MLA aMLA的核心是对注意力键和值进行低秩联合压缩，减少推理过程中的键值缓存（KV cache），从而降低推理时的内存占用。 a•引入旋转位置编码（RoPE）来保持位置信息的有效表示。•通过低秩压缩技术，将高维输入压缩到低维空间，提高推理效率。•擅长捕捉数据的潜在含义，如语义、因果关系等。•擅长处理更长的上下文。来源：DeepSeek V3技术报告，至顶AI实验室整理 1.成本相关技术多词元预测训练MTP a多词元预测是指，在训练过程中，模型不仅预测下一个词元，同时预测多个未来的词元。这种方法通过在共享模型主干上增加多个独立的输出头来实现，并且不增加训练时间和内存消耗。 •多词元预测深度设置为1，除了下一个词元，每个词元会额外预测一个词元。 a•模型分为主体部分和多个头，每个头有自己的RMSnorm、一个Linear和一个Transformer Block。•各个头的预测有依赖关系，主模型计算完后再送给后续的头，从而实现多词元预测。 1.成本相关技术 FP8混合精度训练 a模型训练通常采用FP16或FP32精度的数据格式以保证训练效果，如果换成低精度即可降低存储占用，但往往受到激活、权重和梯度中异常值的限制。为了解决这个问题，DeepSeek采用了混合精度框架，使用细粒度量化策略、低精度优化器状态等方法以实现增强精度、低精度存储和通信，同时DeepSeek向硬件厂商也提出了硬件设计的相关建议。 2.性能相关技术强化学习中的群体相对策略优化（GRPO） a近端策略优化算法（PPO）是OpenAI于2017年提出的一种强化学习算法，被用于GPT等多款主流模型训练过程中用于优化模型表现。DeepSeek提出组相对策略优化（GRPO），对PPO改良，提高计算效率，降低内存占用。 a•GRPO移除了PPO中的价值函数。•GRPO将广义优势估计（GAE）改为组归一化优势（GroupComputation）。•GRPO将KL散度移动到损失函数中。 3.热点话题问：DeepSeekV3成本为550万美元？答：DeepSeekV3成本并非是550万美元。 aDeepSeekV3技术报告明确指出，预训练、上下文延长、后训练等三个训练过程共花费约558万美元。准确来说，除了公开的训练成本，模型总成本还应考虑人员成本、研发成本、数据成本、其他固定成本等。 3.热点话题问：DeepSeekR1是蒸馏OpenAI数据训练出来的？答：没有证据说明DeepSeekR1蒸馏数据来源于OpenAI。 aOpenAI声称掌握证据并指控DeepSeek违反OpenAI服务规定使用其数据用于训练R1模型，但并未拿出有力证据。此前OpenAI曾因违规使用纽约时报数据训练模型被告侵权。此外，业界有其他公司利用OpenAI数据训练自己的模型，但并未取得好的效果。术语解读-模型蒸馏 a在机器学习领域，模型蒸馏是将知识从大型模型转移到较小模型的过程，虽然大型模型（例如非常深的神经网络或许多模型的集合）比小型模型具有更多的知识容量，但这种容量可能没有得到充分利用。 3.热点话题问：DeepSeek绕过了CUDA? 答：DeepSeek没有绕过CUDA。 a业界普遍认为CUDA技术体系构成了英伟达在AI计算领域的重要技术壁垒，CUDA生态优势对硬件市场格局具有深远影响。若能突破现有技术生态限制，有助于AI芯片市场多元化发展。DeepSeek采用定制的PTX优化，能更好释放底层硬件性能。从技术架构来看，PTX作为更接近硬件层的中间表示层，其价值在于提供了比CUDA更高灵活性的编程接口。但PTX本质上仍是英伟达GPU架构的专用指令集规范，不同计算架构需要构建适配自身硬件特性的中间层指令系统。术语解读-CUDA aCUDA全称为计算统一设备架构，是一个专有的并行计算平台和应用程序编程接口。开发者使用CUDA接口，便于关注软件算法，无需关注硬件本身每一步是如何具体运行的。术语解读-PTX PTX全称为并行线程执行，是Nvidia的CUDA编程环境中使用的低级并行线程执行虚拟机和指令集架构。PTX比CUDA更靠近硬件层。一、DeepSeek是谁二、DeepSeek技术路线解析目录三、DeepSeek调用与部署四、如何使用DeepSeek 结语趋势判断三、DeepSeek调用与部署 DeepSeekR1模型可通过云端调用和本地部署的方式使用 •云端调用 •云端调用，可通过官方API或第三方API直接调用DeepSeek R1模型服务并接入业务中；或者可以在云平台上创建、部署、微调模型，再通过API连接模型调用。•云端调用优势在于，用户无需购置硬件即可按需调用云端模型。本地部署 •要本地运行模型，用户需下载DeepSeekR1满血版或蒸馏版本模型，通过Ollama、vLLM等工具启动模型，并借助可视化界面工具与用户交互。•本地部署优势在于无网络依赖，适合对数据安全要求高的企业私有化场景，但需满足高性能显卡和服务器的硬件配置要求。 1.云

点击免费查看完整报告