0104020503DeepSeek V3和R1是怎N¯ÿû来的13个DeepSeek官方ð示词例DeepSeek R1^ð示词的ÙPOÙDeepSeek实×à用场oDeepSeek R1四大使用技ÿ06DeepSeekÿï方案ÿ在线&本地部署Ā注:`前手Ý的信息更新截至20252o10日 DeepSeek V3和R1是怎N¯ÿû来的 @ai呀蔡蔡初识DeepSeek V3 DeepSeek V3是什N?DeepSeek V3 是一个强大的MoE语言模型ÿ非è理型模型Ā。它在数学、ï码等任áP吊打w它开源模型,甚至能和ý源大佬 GPT-4o、Claude-3.5-sonnet 掰手腕,但¯ÿ花的钱ßO到 600 万美元。注:MoE,全Ā是 Mixture-of-Expe s,ÿ译p中文就是<混合_家=。你ÿñ把它想象p一个团队,à个团队Ýp很多_家,每个_家都p自ý的_长。`遇到一个þ题时,O是所p_家都一ĀP,而是据þ题的类型,择Ā合的几个_家来解ô。àO仅ð高了效率,ßð升了性能。数据、Ā表源自:DeepSeek-V3 Technical Repo @ai呀蔡蔡DeepSeek V3架构多Token预测 (MTP)策略V3架构[新之一。`统模型一次预测1个词,DeepSeek V3\时预测多个词ÿ类似<预判Q一m=Ā,ð升数据利用效率,ß能à速生pMulti-Head Latent Attention (MLA)V3基础架构之一,在DeepSeek V2þ经验证p效。MLAÿ译p中文就是多头潜在注意力,`统模型è理时需缓`大量数据,MLA通过压缩键值üÿ类似<精简笔²=Ā减少内`s用,ÿñ¬模型在处理长文本时更高效。 DeepSeekMoEV3基础架构之一,\在DeepSeek V2þ经验证p效。DeepSeekMoE 在`统 MoE 的基础Pß行了多ù[新和_W,比如更精细的_家分ý、共ï_家等,配复g任á,ß而ð升模型的性能和计算效率。03 0102 04 无外损耗的负载均衡前面DeepSeekMoE中ð到的多ù[新,w中就包括V3才èû的无外损耗的负载均衡。简单来说,在¯ÿ过程中,DeepSeekMoEa监ç每个_家的<ý作量=,ß而ú态调整_家使用频率,避免某ß_家<过õ=或<躺=。 呀蔡蔡DeepSeek V3¯ÿm骤和数据使用无o注数据Ø预¯ÿ大模型基础大模型¯ÿ数据:相比V2,V3ð高了数学和编程本的比例,\时扩展了除英语和中文之外的多语言覆盖范围预¯ÿÿ无监督学`Ā精调ÿ监督学`Āè理数据:ü于数学、ï码、»辑è理等需要复gè理过程的任á,V3采用了基于 R1 生p的高质量è理数据非è理数据:ü于[意写作、角ò扮演、简单þ答等非è理类任á,Y用V2.5 生p响à,并由人ýo注和校验 基于规Y的奖ó模型:ü于ÿñ通过明确规Yß行判别的任á (例如数学题、编程题),采用基于规Y的奖ó模型基于模型的奖ó模型:ü于难ñ通过规Yß行判别的任á (例如开式þ答、[意写作),Y采用基于模型的奖ó模型 ai呀蔡蔡DeepSeek V3性能表Ā知识基准通用能力:MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中,超所p开源模型,接àGPT-4oÏ实性:中文Ï实þ答ÿC-SimpleQAĀ甚至超过ý源模型,英文略于GPT-4o ï码P数学ï码竞赛:LiveCodeBench榜首,碾压w他模型。数学è理:MATH-500等测试中,达到开源模型Ā高水,部分超ý源模型。 数据、Ā表源自:DeepSeek-V3 Technical Repo 呀蔡蔡初识DeepSeek R1 DeepSeek R1是什N?DeepSeek R1是一个强大的è理模型,擅长处理复g任á。它在数学、ï码、自然语言è理等任áP,性能比肩OpenAIo1 k式x,小模型Y超 OpenAI o1-mini;语言能力在`前独一档。注:è理型模型ÿ如R1、o3Āa自ý画草稿纸分m骤思考,生p的内容xp较高的准确性和ÿ解释性ÿOï表没幻ÊĀ。非è理模型据预定O的指ð和规Y来生p内容,就是<你说啥q做啥=,ÿ解释性较P。数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning ai呀蔡蔡DeepSeek R1¯ÿm骤DeepSeek V3 Base~了解决R1-Zero的<⽑病=,DeepSeek团队ò了两招ÿ冷启动数据ÿ先给DeepSeekV3Base模型看⼏千条⼈⼯写的⾼质量推理⽰例ÿ⽐如ð细的解题p骤Ā,让它<开窍=Ā多阶段训练ÿ先⽤冷启动数据微调模型,再⽤强化学习进⼀p优化,最^结合w他任ó的数据ÿ⽐如写作1翻译Ā再训练,让模型既聪明⼜<会说⼈话=2跳过了监督微调ÿSFTĀ的过程,直接将强W学`ÿRLĀà用于基础模型,Ð而发展û DeepSeek-R1-Zeroÿaè理,`ûĀ<ÿ悟时刻=Ā但R1 Zeropß<毛病=,比如ÿ读性差、语言混合等,所ñ团队开始探索R1精调ÿ监督学`Ā ÿ强W学`Ā ai呀蔡蔡DeepSeek R1性能表Ā数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning知识基准通用能力:MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中,性能显著超了 DeepSeek-V3 模型PQ文理解:FRAMESÿ长PQ文理解ĀP,R1 _超了 V3 模型,展Āû强大的文档分析能力数学Pï码在 AIME 2024 ÿ美ÿ数学邀ÿ赛Ā、MATH-500 ÿ数学竞赛题Ā 和 Codeforces ÿ编程竞赛Ā等任áP,×得了P OpenAI-o1-1217 相媲美甚至超的p绩。搜索P数据分析在SimpleQAÿ事实基准ĀP,R1优于V32然⽽,R1在中⽂SimpleQA基准P的表Ā不如V3,要是因~w在安全RLÿ强化学习Ā^倾向于拒ÿ回答某些查询ÿà就是⼤家提到的R1<敏感肌=Ā,尽管如o,R1表Ā出来的中⽂能⼒ß是独⼀档 蔡蔡DeepSeek R1模型蒸馏DeepSeek 团队ß一m探索了将 R1 的è理能力<蒸馏=到更小模型中的ÿ能性。他们挑了 R1 生p的 800K 数据,ü Qwen 和Llama系W的多个小模型ß行了微调。<模型蒸馏=¬小模型在保c高性能的\时,更高效、更经o、更易于部署ÿà在第}部分a谈到Ā。注:<模型蒸馏=是一种在机器学`和深度学`中常用的技术,它的心思想是将一个复g模型ÿ通常Ā~<教师模型=Ā的知识转移到一个更简单的模型ÿ通常Ā~<学生模型=Ā中。à个过程p点像<知识`=,¬一个经验丰富的师来教一个学生。数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning R1<模型蒸馏=的效果表Āÿ<蒸馏=^的7B⼩模型可以在数学题P吊打GPT-4o,32B模型甚⾄接近o1-mini2à说明⼤模型的推理能⼒可以<压缩=给⼩模型,省钱⼜⾼效2注意ÿà⾥的蒸馏版系列和满⾎版671b^⾯ß会遇到 ai呀蔡蔡DeepSeek R1`前局限ÿ来自官方技术文档Ā数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning通用能力R1的通用能力 ÿ例如函数调用、多ïüß、复g角ò扮演和json 输ûĀ Ï落^于 DeepSeek-V3语言混合R1 在处理非中英文þ题时,ÿ能aûĀ语言混gĀ象ð示词ý程R1 üð示词比较敏感,少本ð示ÿfew-shotĀac续降Pw性能。因l,DeepSeek团队建°用户直接ï述þ题并使用零本ÿzero-shotĀ¿置来指定输û格式,ñ获得Ā佳结果ðþý程任á由于RLÿ强化学习Ā训练的评估周期较⻓,R1在软件⼯程任ó的à⽤未能à⽤⼴泛2 DeepSeek R1^ð示词的ÙPOÙ ai呀蔡蔡ð示词技ÿ一:清p、x体地表达ÿ在R1中,Ï然p效Ā<写一篇s于时间管理的文章。=模糊ð示词<ÿ写一篇s于如何ð高个人时间管理能力的文章,要求包含O个x体的方法,并ð细解释每个方法的实施m骤。=清p、x体ð示词 i呀蔡蔡ð示词技ÿÐ:ð供背o/规Yÿ在R1中,Ï然p效Ā<帮q写一篇新型ß|望à镜的文章。=无背o/规Y的ð示词<ÿ用英文~q写一篇产品发_è文。à个产品是一款配备AI系统的Ā新型ß|望à镜,ÿñ识别通过望à镜Ê察到的ú物ÿÿñ补充ï产品的更多信息Ā。à篇è文àïð人t奋、体Ā前沿科技,并能激发消费者t趣。è文_数ç制在800_þ右。=ð供背o/规Y的ð示词 i呀蔡蔡ð示词技ÿO:使用示例ÿ在R1中,视情况而定Ā<ÿ参考Q面à种带emoji的笔²风格,生p一篇小红书种草笔²,è广某某}风机。}风机的_点是:体ÿ小、高值、风力大、~得快、智能ç温O伤发。参考示例:9风力强ô,速~神器⏰别看它小,风力ÿ一点都O含糊!早Pÿ时间?强森帮你5分钟搞定û门发型,效率MAX!+9~得快,ßæ发0=p示例的ð示词ÿR1无效Ā<Öþ是qøü某领域的商业分析ç告,ÿ按照ñQ格式撰写ç告摘要:本ç告ü……ÿ商业þ题或ù目背oĀß行了深入分析。通过……ÿ数据收Ø方法或^场调研手段Ā,q们发Ā……ÿ要^场势或þ题Ā。基于àß发Ā,q们ðû了……ÿ解ô方案或策略建°Ā,预计能够实Ā……ÿ预期效果或收益Ā。ç告ßü……ÿ潜在风险或挑战Āß行了评估,并ðû了相à的àü措施。=p示例的ð示词ÿ看情况ĀR1比q们都要懂小红书笔²风格,使用示例à而容易限制R1发挥,弄ÿp拙ÿ第一部分就ð到few-shota降PR1性能Ā如果ç告摘要格式O是¾ø规定的,那在R1中就Oß使用示例;à之使用示例是p效的 ÷ ai呀蔡蔡ð示词技ÿ四:¿定角òÿ在R1中,视情况而定Ā<你是⼀]精通Web开发的⾼级⼯程师,拥有10年以P的Webà⽤开发经验,熟悉HTML1CSS1JavaScript1React1Vue.js1Node.js1Webpack1TypeScript等开发⼯x和技术p2请帮我开发⼀个