行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

《DeepSeek入门宝典》第1册·技术解析篇

文化传媒 2025-02-12 51CTO智能研究院&51CTO传媒&51CTO学堂路仁假

DeepSeek R1 研究报告总结

DeepSeek 公司及产品概述

公司背景：DeepSeek 是幻方量化于2023年创立的大模型子公司，创始人为梁文锋。
产品发布：2024年1月5日发布首个AI大模型 DeepSeek LLM，2025年1月20日发布 DeepSeek R1，对标 OpenAI o1正式版的高性能推理模型。
市场表现：R1上线后创造全球APP增长最快记录。

DeepSeek R1 核心特点

高性能：推理表现媲美 OpenAI o1 正式版。
开源：R1开源并公开训练技术，允许开发者访问和学习。
低成本：开发成本仅为 OpenAI o1 的 2% 左右。

DeepSeek R1 的三种使用方式

普通用户：作为生产力工具及技术尝鲜，通过官网APP或聊天界面使用。
开发者/企业用户：保障访问稳定性和可扩展性，通过API或本地部署在云平台（硅基流动、腾讯云、阿里云等）使用。
技术整合：借助 Ollama、vLLM 和 MNN 等工具进行本地部署。

DeepSeek R1 技术揭秘

基座模型：V3 是自研 MoE 模型，参数量 671B，预训练数据 14.8T tokens，对标 GPT-4o，通过指令微调和偏好微调提升性能。
三种变体：
- R1-Zero：直接强化学习训练。
- R1：多阶段渐进训练。
- R1-Distill：模型蒸馏技术，将大模型知识迁移给小模型。
训练技术路径：结合强化学习、冷启动数据、监督微调和蒸馏技术。
核心技术解析：
- 强化学习：采用多种奖励的强化学习，相当于模型的“综合评分系统”。
- 冷启动数据：策略性使用少量高质量数据帮助模型快速学习推理。
- 监督微调：通过标注数据调整模型，提升特定任务表现。
- 蒸馏技术：通过大模型教小模型推理技巧。

关键技术贡献

“纯RL”技术路线可行性：首个公开研究验证 LLM 推理能力可通过强化学习激励，无需监督微调。
“啊哈时刻”：模型在解题时使用拟人化语言表达顿悟，被视为走向 AGI 的重要一步。
蒸馏小模型超越 OpenAI o1-mini：通过蒸馏技术开源 6 个高性能小模型，证明策略的经济性和有效性。

DeepSeek R1 与 OpenAI o1 的区别

架构：R1 基于已有模型 DeepSeek V3，o1 是新模型。
训练方式：R1 仅通过强化学习激励，o1 结合监督微调和强化学习。
生态：R1 开源免费，o1 闭源需 ChatGPT Plus 会员访问。

DeepSeek R1 的四大进化方向

通用能力：通过长链推理提升复杂任务表现。
语言混合优化：避免中英文等语言混合问题。
提示工程：减少对提示的敏感性，提升性能。
软件工程任务：通过异步评估缩短强化学习时长，提升效率。

DeepSeek 产品家族全梳理

官网：获取最新研究成果、源代码和提示词样例库。
51CTO AI.x 专区：获取最新资讯、实战文章、实用资源及直播分享。
51CTO 在线课程：超过200门AI（含DeepSeek）主题视频课程。
51CTO 企业学堂：推出企业DeepSeek体系化学习方案。

•DeepSeek是什么？•DeepSeek R1的三大特点•使用DeepSeek的五种方式对比 DeepSeek是什么？ DeepSeek是什么？•D e e p S e e k是幻方量化于2 0 2 3年创立的大模型子公司，创始人为梁文锋•2 0 2 4年1月5日，其发布第一个同名A I大模型D e e p S e e kL L M•2 0 2 5年1月2 0日，D e e p S e e k R 1正式发布，为对标O p e n A I o 1正式版的高性能推理模型；R 1上线后火速出圈，其应用创造了全球A P P历史上增长最快的记录图片来源：AI产品榜图片来源：DeepSeek官网推理表现媲美OpenAI o1正式版R1开源，并公开训练技术，允许开发者R1开发成本仅为OpenAI o1的2%左右图注：DeepSeek与OpenAI各版本的准确率对比（图片来源：DeepSeek官网）DeepSeek R1的三大特点高性能开源低成本访问和学习使用DeepSeek的五种方式对比作为生产力工具及技术尝鲜https://chat.deepseek.com/开发者、企业用户保障访问稳定性和可扩展性https://deepseekapi.io/可借助Ollama、vLLM和MNN等工具硅基流动、腾讯云、阿里云等https://chat.deepseek.com/官网APPAPI本地部署云平台普通用户 •R1的基座模型——V3•R1的三种变体•R1训练的技术路径•R1的核心技术解析•R1的关键技术贡献 DeepSeek R1核心技术揭秘 R1的基座模型：V3•V3是去年12月发布的自研MoE模型•参数与GPT-4大致在同一数量级：V3有671B参数，每个Token的计算激活约37B•在14.8T token上进行了预训练R1在DeepSeekV3基础上进行了开发图注：DeepSeek V3与发布时其他主流大模型的准确率对比（图片来源：DeepSeek官网）•V3：对标GPT-4o，通过指令微调和偏好微调 V3模型的特征•R1：专注于推理能力提升性能 R1的核心技术解析：强化学习图片来源：《基于场景动力学和强化学习的自动驾驶边缘测试场景生成方法》R1采用了多种奖励的强化学习，相当于模型的“综合评分系统”，模型在完成任务时根据多个标准获得不同的奖励信号。 R1的核心技术解析：冷启动数据R1策略性地将少量高质量数据作为冷启动。这相当于训练开始前的“入门教程”，帮助模型更快地学会如何进行清晰、有逻辑的推理。R1-Zero生成的长思维链(CoT)数据挑选示例R1的冷启动数据 R1的核心技术解析：监督微调图片来源：《PORT: Preference Optimization on Reasoning Traces》R1训练包括两个监督微调(SFT)阶段。模型通过学习标注数据来调整模型，以在特定任务上表现得更精准。 R1的核心技术解析：蒸馏图片来源：https://devopedia.org/knowledge-distillationR1-Distill采用蒸馏技术。大模型（老师）把自己的知识和推理能力教给小模型（学生），通过高质量的数据和训练方法，让小模型学会大模型的推理技巧。关键贡献1：“纯RL”技术路线的可行性首个公开研究，验证了LLMs的推理能力可以仅通过强化学习激励，而无需监督微调。图注：随着RL训练逐步推进，R1-Zero的性能稳定且持续提升（图片来源：DeepSeek官方论文）关键贡献2：R1的“啊哈时刻”图注：在处理复杂的数学问题时，模型突然停下来说“等等、等等、这是个值得标记的啊哈时刻”（图片来源：DeepSeek官方论文）DeepSeek R1在推理时使用诸如“啊哈时刻”的高度拟人化语言，在解题找到突破口时产生了顿悟，被视图注：DeepSeek R1的推理过程为走向AGI的重要一步。关键贡献3：蒸馏小模型超越OpenAI o1-mini图注：通过DeepSeek-R1的输出，蒸馏了6个小模型开源给社区（图片来源：DeepSeek官方论文）蒸馏小模型的高性能，证明了该策略的经济和有效，但想要突破当前智能的边界，或仍需要更大规模的基础模型与强化学习。 •R1与OpenAI o1的三大区别•R1的四大进化方向•附录：DeepSeek产品家族全梳理 DeepSeek技术贡献及未来进化 DeepSeekR1与OpenAI o1的三大区别架构不同训练方式不同生态不同R1：基于已有模型DeepSeekV3R1：证明可以仅通过强化学习激励，无需监督微调R1：开源，免费使用o1：不同于GPT-4o的新模型o1：监督微调和强化学习结合o1：闭源，ChatGPT Plus会员才可访问o1及o1 mini R1的四大进化方向R1在一些复杂任务上的表现不如V3，未来可以通过长链推理来提升优化R1处理中英文以外语言的能力，避免现在的语言混合问题R1对提示很敏感，少量示例提示会从软件工程数据、强化学习的异步评估入手，缩短评估时长，保障强化学习过程的效率语言混合软件工程任务通用能力提示工程降低性能更多DeepSeek及AI学习资源DeepSeek官网访问官网，可深入了解最新研究成果，获取源代码及官方提示词样例库等资源。https://www.deepseek.com51CTO官网AI.x专区，获取DeepSeek及AI最新资讯、实战文章、实用资源及AI实战派大咖直播分享。超过200门、超过1000小时AI（含DeepSeek）主题视频课程可供个人和企业学习。图注：51CTO企业学堂推出的企业DeepSeek体系化学习方案51CTO官网AI专区51CTO在线课程DeepSeek专区 https://ai.51cto.comhttps://b.51cto.com

点击免费查看完整报告

《DeepSeek入门宝典》第1册·技术解析篇

DeepSeek R1 研究报告总结

DeepSeek 公司及产品概述

DeepSeek R1 核心特点

DeepSeek R1 的三种使用方式

DeepSeek R1 技术揭秘

关键技术贡献

DeepSeek R1 与 OpenAI o1 的区别

DeepSeek R1 的四大进化方向

DeepSeek 产品家族全梳理

你可能感兴趣

DeepSeek入门宝典：第4册-个人使用篇

2025年DeepSeek入门宝典-行业应用篇

开发实战篇-DeepSeek入门宝典：第2册-开发实战篇

《DeepSeek入门宝典》开发实战篇

deepseek技术入门

2025年deepseek技术全景解析——重塑全球AI生态的中国力量

AI赋能人力资源：从AIGC技术到Deepseek应用的全面解析

大语言模型在投研中的应用：DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用

无人驾驶篇：解析无人驾驶技术的确定性与不确定性

“云智一体”技术与应用解析白皮书——智能物联网篇