行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

DeepSeek自学手册：从理论(模型训练)到实践(模型应用)

信息技术 2025-02-27 - ai呀蔡蔡团队浮云

DeepSeek V3 和 R1 的来源

DeepSeek V3 是一个强大的 MoE 语言模型，采用 MTP 策略和 MLA 架构，并融合了 MoE 技术，在数学、编程等领域表现出色，超越多数开源模型。
DeepSeek R1 是一个强大的推理模型，擅长处理复杂任务，在数学、编程、自然语言推理等领域表现优异，中文能力尤为突出。

DeepSeek R1 的示词技巧

清晰、具体地表达任务：避免模糊的指令，明确任务目标和要求。
提供背景/规则：为模型提供必要的背景信息和规则，帮助模型更好地理解任务。
使用示例：根据任务类型选择性地使用示例，但需注意避免过度限制模型发挥。
指定角色：为模型设定角色，但需注意 R1 对角色扮演的敏感性。
结构化输出：使用结构化的输出格式，如 JSON，确保信息的清晰和准确。
逐层思考/COT：R1 对 COT 技巧无效。
分解任务：将复杂任务分解为多个步骤，逐步引导模型完成。
示词框架：使用示词框架，明确任务目标、受众、预期效果和核心问题。
乔哈里视窗：使用乔哈里视窗技巧，引导模型进行开放式的对话。

DeepSeek R1 的四大使用技巧

把 R1 当人看，像人一样交流：使用自然语言与模型进行交流，提高沟通效率。
学习 R1 的思维链：通过分析 R1 的思维过程，提升自身的认知能力。
教 R1 方法论：学习 R1 使用的思维模型，更好地理解其推理过程。
V3 + R1 合拳：结合 V3 和 R1 的优势，完成复杂的任务或生成更高质量的文本。

DeepSeek 官方示词示例 & 解释

提供了多个示词示例，涵盖代码改写、代码注释、代码生成、内容分类、角色扮演、散文写作、诗歌创作、文案大生成、押韵文案生成、模型示词生成、中英文翻译等场景。

DeepSeek 实际应用场景 & 思路

文本生成场景：文风转换/仿写、内容批量生成。
编程场景：代码生成、代码调试、代码解释、代码注释、技术文档生成、思维导图、流程图、时序图、SVG 矢量图生成、Photoshop 批量处理。
API 场景：接入 Word、WPS 等文档编辑软件，接入 Obsidian、FastGPT 等知识管理软件，接入 Dify、沉睡式翻译等应用，接入 iPhone、Android 手机、智能音箱等硬件设备。

DeepSeek 部署方案

在线方案：秘塔 AI 搜索、搜狗 AI 搜索、硅基流。
本地部署方案：根据硬件配置和实际应用场景选择合适的模型和部署方式。
内部大厂的服务器 & 产品：腾讯、字节跳动、阿里的文心一言、百度度秘等。
内部手机厂商：华为、荣耀、OPPO、魅族、vivo 等。
AI 编程工具：Cursor、Windsuń 等。
外部产品：英伟达、NVIDIA、Cerebras、Perplexity 等。

总结

DeepSeek V3 和 R1 是强大的语言模型，在文本生成、编程、推理等领域具有广泛的应用场景。通过学习和应用示词技巧，可以更好地发挥模型的能力，完成各种复杂的任务。根据实际需求选择合适的部署方案，可以进一步提高使用效率和效果。

0104020503DeepSeek V3和R1是怎N¯ÿû来的13个DeepSeek官方ð示词例DeepSeek R1^ð示词的ÙPOÙDeepSeek实×à用场oDeepSeek R1四大使用技ÿ06DeepSeekÿï方案ÿ在线&本地部署Ā注：`前手Ý的信息更新截至20252o10日 DeepSeek V3和R1是怎N¯ÿû来的 @ai呀蔡蔡初识DeepSeek V3 DeepSeek V3是什N？DeepSeek V3 是一个强大的MoE语言模型ÿ非è理型模型Ā。它在数学、ï码等任áP吊打w它开源模型，甚至能和ý源大佬 GPT-4o、Claude-3.5-sonnet 掰手腕，但¯ÿ花的钱ßO到 600 万美元。注：MoE，全Ā是 Mixture-of-Expes，ÿ译p中文就是<混合_家=。你ÿñ把它想象p一个团队，à个团队Ýp很多_家，每个_家都p自ý的_长。`遇到一个þ题时，O是所p_家都一ĀP，而是据þ题的类型，择Ā合的几个_家来解ô。àO仅ð高了效率，ßð升了性能。数据、Ā表源自：DeepSeek-V3 Technical Repo @ai呀蔡蔡DeepSeek V3架构多Token预测 (MTP)策略V3架构[新之一。`统模型一次预测1个词，DeepSeek V3\时预测多个词ÿ类似<预判Q一m=Ā，ð升数据利用效率，ß能à速生pMulti-Head Latent Attention (MLA)V3基础架构之一，在DeepSeek V2þ经验证p效。MLAÿ译p中文就是多头潜在注意力，`统模型è理时需缓`大量数据，MLA通过压缩键值üÿ类似<精简笔²=Ā减少内`s用，ÿñ¬模型在处理长文本时更高效。 DeepSeekMoEV3基础架构之一，\在DeepSeek V2þ经验证p效。DeepSeekMoE 在`统 MoE 的基础Pß行了多ù[新和_W，比如更精细的_家分ý、共ï_家等，配复g任á，ß而ð升模型的性能和计算效率。03 0102 04 无外损耗的负载均衡前面DeepSeekMoE中ð到的多ù[新，w中就包括V3才èû的无外损耗的负载均衡。简单来说，在¯ÿ过程中，DeepSeekMoEa监ç每个_家的<ý作量=，ß而ú态调整_家使用频率，避免某ß_家<过õ=或<躺=。呀蔡蔡DeepSeek V3¯ÿm骤和数据使用无o注数据Ø预¯ÿ大模型基础大模型¯ÿ数据：相比V2，V3ð高了数学和编程本的比例，\时扩展了除英语和中文之外的多语言覆盖范围预¯ÿÿ无监督学`Ā精调ÿ监督学`Āè理数据：ü于数学、ï码、»辑è理等需要复gè理过程的任á，V3采用了基于 R1 生p的高质量è理数据非è理数据：ü于[意写作、角ò扮演、简单þ答等非è理类任á，Y用V2.5 生p响à，并由人ýo注和校验基于规Y的奖ó模型：ü于ÿñ通过明确规Yß行判别的任á (例如数学题、编程题)，采用基于规Y的奖ó模型基于模型的奖ó模型：ü于难ñ通过规Yß行判别的任á (例如开式þ答、[意写作)，Y采用基于模型的奖ó模型 ai呀蔡蔡DeepSeek V3性能表Ā知识基准通用能力：MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中，超所p开源模型，接àGPT-4oÏ实性：中文Ï实þ答ÿC-SimpleQAĀ甚至超过ý源模型，英文略于GPT-4o ï码P数学ï码竞赛：LiveCodeBench榜首，碾压w他模型。数学è理：MATH-500等测试中，达到开源模型Ā高水，部分超ý源模型。数据、Ā表源自：DeepSeek-V3 Technical Repo 呀蔡蔡初识DeepSeek R1 DeepSeek R1是什N？DeepSeek R1是一个强大的è理模型，擅长处理复g任á。它在数学、ï码、自然语言è理等任áP，性能比肩OpenAIo1 k式x，小模型Y超 OpenAI o1-mini；语言能力在`前独一档。注：è理型模型ÿ如R1、o3Āa自ý画草稿纸分m骤思考，生p的内容xp较高的准确性和ÿ解释性ÿOï表没幻ÊĀ。非è理模型据预定O的指ð和规Y来生p内容，就是<你说啥q做啥=，ÿ解释性较P。数据、Ā表源自：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning ai呀蔡蔡DeepSeek R1¯ÿm骤DeepSeek V3 Base~了解决R1-Zero的<⽑病=，DeepSeek团队ò了两招ÿ冷启动数据ÿ先给DeepSeekV3Base模型看⼏千条⼈⼯写的⾼质量推理⽰例ÿ⽐如ð细的解题p骤Ā，让它<开窍=Ā多阶段训练ÿ先⽤冷启动数据微调模型，再⽤强化学习进⼀p优化，最^结合w他任ó的数据ÿ⽐如写作1翻译Ā再训练，让模型既聪明⼜<会说⼈话=2跳过了监督微调ÿSFTĀ的过程，直接将强W学`ÿRLĀà用于基础模型，Ð而发展û DeepSeek-R1-Zeroÿaè理，`ûĀ<ÿ悟时刻=Ā但R1 Zeropß<毛病=，比如ÿ读性差、语言混合等，所ñ团队开始探索R1精调ÿ监督学`Ā ÿ强W学`Ā ai呀蔡蔡DeepSeek R1性能表Ā数据、Ā表源自：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning知识基准通用能力：MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中，性能显著超了 DeepSeek-V3 模型PQ文理解：FRAMESÿ长PQ文理解ĀP，R1 _超了 V3 模型，展Āû强大的文档分析能力数学Pï码在 AIME 2024 ÿ美ÿ数学邀ÿ赛Ā、MATH-500 ÿ数学竞赛题Ā 和 Codeforces ÿ编程竞赛Ā等任áP，×得了P OpenAI-o1-1217 相媲美甚至超的p绩。搜索P数据分析在SimpleQAÿ事实基准ĀP，R1优于V32然⽽，R1在中⽂SimpleQA基准P的表Ā不如V3，要是因~w在安全RLÿ强化学习Ā^倾向于拒ÿ回答某些查询ÿà就是⼤家提到的R1<敏感肌=Ā，尽管如o，R1表Ā出来的中⽂能⼒ß是独⼀档蔡蔡DeepSeek R1模型蒸馏DeepSeek 团队ß一m探索了将 R1 的è理能力<蒸馏=到更小模型中的ÿ能性。他们挑了 R1 生p的 800K 数据，ü Qwen 和Llama系W的多个小模型ß行了微调。<模型蒸馏=¬小模型在保c高性能的\时，更高效、更经o、更易于部署ÿà在第}部分a谈到Ā。注：<模型蒸馏=是一种在机器学`和深度学`中常用的技术，它的心思想是将一个复g模型ÿ通常Ā~<教师模型=Ā的知识转移到一个更简单的模型ÿ通常Ā~<学生模型=Ā中。à个过程p点像<知识`=，¬一个经验丰富的师来教一个学生。数据、Ā表源自：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning R1<模型蒸馏=的效果表Āÿ<蒸馏=^的7B⼩模型可以在数学题P吊打GPT-4o，32B模型甚⾄接近o1-mini2à说明⼤模型的推理能⼒可以<压缩=给⼩模型，省钱⼜⾼效2注意ÿà⾥的蒸馏版系列和满⾎版671b^⾯ß会遇到 ai呀蔡蔡DeepSeek R1`前局限ÿ来自官方技术文档Ā数据、Ā表源自：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning通用能力R1的通用能力 ÿ例如函数调用、多ïüß、复g角ò扮演和json 输ûĀ Ï落^于 DeepSeek-V3语言混合R1 在处理非中英文þ题时，ÿ能aûĀ语言混gĀ象ð示词ý程R1 üð示词比较敏感，少本ð示ÿfew-shotĀac续降Pw性能。因l，DeepSeek团队建°用户直接ï述þ题并使用零本ÿzero-shotĀ¿置来指定输û格式，ñ获得Ā佳结果ðþý程任á由于RLÿ强化学习Ā训练的评估周期较⻓，R1在软件⼯程任ó的à⽤未能à⽤⼴泛2 DeepSeek R1^ð示词的ÙPOÙ ai呀蔡蔡ð示词技ÿ一：清p、x体地表达ÿ在R1中，Ï然p效Ā<写一篇s于时间管理的文章。=模糊ð示词<ÿ写一篇s于如何ð高个人时间管理能力的文章，要求包含O个x体的方法，并ð细解释每个方法的实施m骤。=清p、x体ð示词 i呀蔡蔡ð示词技ÿÐ：ð供背o/规Yÿ在R1中，Ï然p效Ā<帮q写一篇新型ß|望à镜的文章。=无背o/规Y的ð示词<ÿ用英文~q写一篇产品发_è文。à个产品是一款配备AI系统的Ā新型ß|望à镜，ÿñ识别通过望à镜Ê察到的ú物ÿÿñ补充ï产品的更多信息Ā。à篇è文àïð人t奋、体Ā前沿科技，并能激发消费者t趣。è文_数ç制在800_þ右。=ð供背o/规Y的ð示词 i呀蔡蔡ð示词技ÿO：使用示例ÿ在R1中，视情况而定Ā<ÿ参考Q面à种带emoji的笔²风格，生p一篇小红书种草笔²，è广某某}风机。}风机的_点是：体ÿ小、高值、风力大、~得快、智能ç温O伤发。参考示例：9风力强ô，速~神器⏰别看它小，风力ÿ一点都O含糊！早Pÿ时间？强森帮你5分钟搞定û门发型，效率MAX！+9~得快，ßæ发0=p示例的ð示词ÿR1无效Ā<Öþ是qøü某领域的商业分析ç告，ÿ按照ñQ格式撰写ç告摘要：本ç告ü……ÿ商业þ题或ù目背oĀß行了深入分析。通过……ÿ数据收Ø方法或^场调研手段Ā，q们发Ā……ÿ要^场势或þ题Ā。基于àß发Ā，q们ðû了……ÿ解ô方案或策略建°Ā，预计能够实Ā……ÿ预期效果或收益Ā。ç告ßü……ÿ潜在风险或挑战Āß行了评估，并ðû了相à的àü措施。=p示例的ð示词ÿ看情况ĀR1比q们都要懂小红书笔²风格，使用示例à而容易限制R1发挥，弄ÿp拙ÿ第一部分就ð到few-shota降PR1性能Ā如果ç告摘要格式O是¾ø规定的，那在R1中就Oß使用示例；à之使用示例是p效的 ÷ ai呀蔡蔡ð示词技ÿ四：¿定角òÿ在R1中，视情况而定Ā<你是⼀]精通Web开发的⾼级⼯程师，拥有10年以P的Webà⽤开发经验，熟悉HTML1CSS1JavaScript1React1Vue.js1Node.js1Webpack1TypeScript等开发⼯x和技术p2请帮我开发⼀个

点击免费查看完整报告

DeepSeek自学手册：从理论(模型训练)到实践(模型应用)

DeepSeek V3 和 R1 的来源

DeepSeek R1 的示词技巧

DeepSeek R1 的四大使用技巧

DeepSeek 官方示词示例 & 解释

DeepSeek 实际应用场景 & 思路

DeepSeek 部署方案

总结

你可能感兴趣

房地产行业深度报告：地产+AI 工具系列报告之四：从地产投研到交易——OpenClaw的跨界实践（如何训练一只会交易能风控的“龙虾”）

DeepSeek指导手册-从入门到精通

Deepseek V3从零基础到精通学习手册

预训练大模型与医疗：从算法研究到应用

从愿景到行动：献给基金会的公平发展实践手册（官网版）

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

DeepSeek如何赋能职场应用——从提示语技巧到多场景应用（0212）

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

AI赋能人力资源：从AIGC技术到Deepseek应用的全面解析

2025大模型原理、技术与应用：从GPT到DeepSeek