行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

DeepSeek完全实用手册V1.5-技术原理·使用技巧·部署进展

2024-04-26 至顶科技&至顶AI实验室&至顶智库郭生根

一、DeepSeekV3模型更新

DeepSeek-V3-0324模型开源发布，主要改进后训练方法，参数量约660B，上下文长度为128K（网页端、App和API提供64K）。
更新主要体现于：推理能力提升（数学、代码类相关评测集上取得超过GPT-4.5的成绩）、前端开发能力增强、中文写作升级、中文搜索能力优化。
V3模型采用混合专家架构（MoE），支持多任务处理，在代码生成、数学推理等场景表现优异。
R1模型是基于强化学习训练的推理模型，专注于代码生成和复杂数学问题解决，推理能力可通过蒸馏技术迁移至小型模型。

二、DeepSeek部署进展

DeepSeek模型在我国地方政府、央企、四大直辖市国企以及智能终端的部署情况持续进展。
地方政府部署主要集中在智能问答、公文起草、政务服务、知识库、政策咨询、智能客服、12345热线等方面。
央企部署主要集中在办公、能源、制造、通信、航运等多领域，应用场景涵盖智能问答、知识库、场景应用、智能决策、数据挖掘、智慧运维等方面。
四大直辖市国企40+企业已全面部署DeepSeek模型，应用涵盖生产制造、金融创新、智能汽车、交通运营、水务管理等多个领域。
智能终端部署主要集中在语音交互、智能问答、AI助手、智能座舱等方面，已应用于多款智能手机、AI PC、智能家电和智能汽车产品。

三、DeepSeek技术路线解析

DeepSeekR1模型训练流程：以V3模型作为基座模型训练，通过冷启动生成推理数据，利用推理数据和SFT数据进行强化学习和SFT等训练过程，最终得到R1模型。
成本相关技术：V3和R1模型前馈神经网络均采用混合专家（MoE）架构，每个MoE层包含1个共享专家和256个路由专家；引入多头潜在注意力MLA，减少推理过程中的键值缓存（KV cache），从而降低推理时的内存占用；采用多词元预测训练MTP和FP8混合精度训练方法，降低训练成本和存储占用。
性能相关技术：DeepSeek提出群体相对策略优化（GRPO），对PPO改良，提高计算效率，降低内存占用。
开源级别：DeepSeek属于大模型开源级别，完全公开模型权重、训练数据、代码等，并支持社区协议。

四、DeepSeek调用与部署

DeepSeekR1模型可通过云端调用和本地部署的方式使用。
云端调用：可通过官方API或第三方API直接调用DeepSeek R1模型服务并接入业务中，或可在云平台上创建、部署、微调模型，再通过API连接模型调用。
本地部署：需下载DeepSeekR1满血版或蒸馏版本模型，通过Ollama、vLLM等工具启动模型，并借助可视化界面工具与用户交互。

五、如何使用DeepSeek

DeepSeek的使用可划分为独立使用和工具组合使用两大范式。
独立使用：通过自然语言对话获取核心服务，典型场景包括文本创作、信息咨询、知识推理等。
工具组合：基于文本指令驱动的工具生态协同，实现“DeepSeek+”创新工作流，典型组合形态包括办公增效、创意设计、AI音视频、编程辅助等。
提示工程：通过优化输入指令（提示词），引导AI模型生成更精准、高质量的输出。

六、趋势判断

开源模型将推动AI应用生态的加速繁荣，大幅降低传统企业与创业者接入AI的成本与门槛。
AI技术深入演进，推理模型或将成为主流形态，在精准度与成功率方面表现突出，且输出方式更具可解释性。
每项业务都需要接入至少一种AI模型，每位工作者都需要能跑端侧AI的个人电脑，每个公司都需建设能支撑AI工作流的AI算力平台。
“Agent+协议”可能是企业应用的新范式，Agent将自主规划任务步骤、调用合适工具、判断完成情况，任务执行过程需要少量甚至无需人类参与。

—技术原理·使用技巧·部署进展— 2025年4月组织机构/课题组出品机构：至顶科技执行机构：至顶AI实验室至顶智库团队成员：孙硕邓震东高书葆路飞刘文轩张建课题顾问：高飞媒体支持：至顶网科技行者Solidot 前言䔲⵸DeepSeek垷㘗䊺㖈䧮㕂㢴⚡곭㚖㹊梡鿈縭䧭⚹䲿⼮佟䏎剪⸉佪腊ծ⠏⻊⟱⚌絑蠒盗椚ծ㟞䔂絊畮❡ㅷ⸆腊涸ꅾ銳䊨Ⱘկ㖑倰佟䏎㽻꬗DeepSeek涸鿈縭儑衼䲿⼮✫佟⸉剪⸉佪桧⠏⻊✫㙹䋑屛椚⡤禹⸔⸂佟䏎剪⸉➢侨㶶⻊ぢ兰腊⻊駟鴲♶倗䲿⼮ⰖⰟ剪⸉餘ꆀկ㕂㣛⟱㽻꬗䧮㕂侨⼧㹻㣛⟱ㄤ㕂⟱䱹ⰆDeepSeek垷㘗嶍⿺腊彂ծ鸑⥌ծꆄ輑ծ㛇炄霃倶瘝㢴⚡곭㚖剣ⵄ✵⟱⚌㹊梡兰腊⻊鲮㘗䲀⸓❡⚌涸넞餘ꆀ〄㾝կ兰腊絊畮㽻꬗DeepSeek垷㘗⚹湱Ⱒ❡ㅷ䲿⣘䔂㣐涸兰腊㢅椚腊⸂忘駈欽䨪㼆兰腊⸅Ⱆծㅷ餘欰崞涸꨽宠կ 1.5晜劥䫣デ㟞⸈䚪絕✫DeepSeek垷㘗㖈㖑倰佟䏎ծ㕂㣛⟱⿺兰腊絊畮倰꬗涸鿈縭䞔ⲃ䱲雭Ⱖ䎾欽䧭佪ㄤ劢勻〄㾝馋⸷⚹爢⠔Ⱆ⠍刿㥩✫鍒DeepSeek涸〄㾝鵳玐䲿⣘⿬罌կ 三、DeepSeek是谁四、DeepSeek技术路线解析五、DeepSeek调⽤与部署六、如何使⽤DeepSeek七、趋势判断⼆、DeepSeek部署进展⼀、DeepSeek V3更新⽬录一、DeepSeek V3模型更新简介 2025年3⽉24⽇，DeepSeek-V3-0324模型开源发布，与之前的DeepSeek-V3使⽤同样的base模型，仅改进了后训练⽅法。模型参数约660B，开源版本上下文长度为128K（网页端、App和API提供64K上下文）。私有化部署时只需要更新checkpoint和tokenizer_config.json（tool calls相关变动）。 DeepSeek V3本次更新主要体现于：推理能⼒提升、前端开发能⼒增强、中⽂写作升级、中⽂搜索能⼒优化。新版V3在⼯具调⽤、⻆⾊扮演、问答闲聊等方面，也得到了一定幅度的能力提升。 •推理能力：新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。•前端开发：在HTML等代码前端任务上，新版V3模型生成的代码可用性更高，视觉效果也更加美观、富有设计感。•中文写作：在中文写作任务方面，新版V3模型基于R1的写作水平进行了进一步优化，同时特别提升了中长篇文本创作的内容质量。•中文搜索：新版V3模型可以在联网搜索场景下，对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。一、DeepSeek V3模型更新推理任务表现提高倝晜V3垷㘗0324湱鳅✵♳⚡晜劥•MMLU-Pro䖤ⴔ䲿⼮5.3荛81.2 •GPQA䖤ⴔ䲿⼮19.3荛68.4•MATH䖤ⴔ䲿⼮3.8荛94.0•AIME䖤ⴔ䲿⼮19.8荛59.4•LiveCodeBench䖤ⴔ䲿⼮10.0荛49.2 倝晜V3垷㘗♸Qwen-MaxծGPT-4.5ծClaude-Sonnet-3.7湱嫱 •㖈MATH-500ծAIME2024ծLiveCodeBench崵霉务蜦䖤剒넞ⴔ•㖈MMLU-ProծGPQADiamond崵霉务蜦䖤痦✳ 一、DeepSeek系列模型发布时间线 ♧ծ DeepSeek V3刿倝⼆、DeepSeek部署进展三、DeepSeek是谁四、DeepSeek技术路线解析五、DeepSeek调⽤与部署六、如何使⽤DeepSeek七、趋势判断⽬录 DeepSeek模型部署进展 DeepSeek模型在我国地方政府、央企、四大直辖市国企以及智能终端的部署情况。 1.DeepSeek模型地方政府部署进展荛곝兰䎽絕ざぐ㖑佟䏎㸽緸瘝勉㪭庈麤絡雦䧮㕂⚎鿈ծ务鿈ծ銯鿈⟄⿺⚎⻌㖑⼓涸72⚡溁紩䧴䋑紩佟䏎鿈꡶Ⰼ꬗鿈縭DeepSeek垷㘗կⰨ⡤㥵♴ •⚎鿈㖑⼓Ⱏ剣39⚡溁紩䧴䋑紩佟䏎鿈꡶模䧭鿈縭•銯鿈㖑⼓Ⱏ剣14⚡溁紩䧴䋑紩佟䏎鿈꡶模䧭鿈縭•务鿈㖑⼓Ⱏ剣11⚡溁紩䧴䋑紩佟䏎鿈꡶模䧭鿈縭•⚎⻌㖑⼓Ⱏ剣8⚡溁紩䧴䋑紩佟䏎鿈꡶模䧭鿈縭կ 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 1.DeepSeek模型地方政府部署进展 DeepSeek模型在地方政府的部署主要集中在智能问答、公文起草、政务服务、知识库、政策咨询、智能客服、12345热线等方面。 2.DeepSeek模型央企部署进展至顶智库结合国务院国资委以及相关央企网站、公众号等渠道统计。 •全国98家央企中已有60家(集团或下属公司层面)完成DeepSeek模型部署，部署比例超过60%。•DeepSeek模型在央企的应用场景涵盖办公、能源、制造、通信、航运等多领域。 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 2.DeepSeek模型央企部署进展 DeepSeek模型在央企的部署主要集中在智能问答、知识库、场景应用、智能决策、数据挖掘、智慧运维等方面。 3.DeepSeek模型地方国企部署进展至顶智库结合地方国资委以及相关国企网站、公众号等渠道统计，我国四大直辖市国企(北京、上海、天津、重庆) 40+企业已全面部署DeepSeek模型。 •北京18家国企完成DeepSeek模型部署；•上海10家国企完成DeepSeek模型部署；•重庆10家国企完成DeepSeek模型部署；•天津9家国企完成DeepSeek模型部署；•DeepSeek模型在四大直辖市国企中的应用涵盖生产制造、金融创新、智能汽车、交通运营、水务管理等多个领域。 3.DeepSeek模型地方国企部署进展北京国企部署进展 3.DeepSeek模型地方国企部署进展 3.DeepSeek模型地方国企部署进展北京国企部署进展 3.DeepSeek模型地方国企部署进展北京国企部署进展 3.DeepSeek模型地方国企部署进展北京国企部署进展 3.DeepSeek模型地方国企部署进展北京国企部署进展 3.DeepSeek模型地方国企部署进展上海国企部署进展 3.DeepSeek模型地方国企部署进展上海国企部署进展 3.DeepSeek模型地方国企部署进展上海国企部署进展 3.DeepSeek模型地方国企部署进展上海国企部署进展 3.DeepSeek模型地方国企部署进展 3.DeepSeek模型地方国企部署进展天津国企部署进展 3.DeepSeek模型地方国企部署进展天津国企部署进展 3.DeepSeek模型地方国企部署进展重庆国企部署进展 3.DeepSeek模型地方国企部署进展重庆国企部署进展 3.DeepSeek模型地方国企部署进展重庆国企部署进展 3.DeepSeek模型地方国企部署进展 DeepSeek模型在地方国企的部署主要集中在智能问答、知识库、场景应用、智能助手、代码生成、智能决策等方面。 4.DeepSeek模型智能终端部署进展荛곝兰䎽絕ざ⚺崨兰腊絊畮ㅷ晥㸽緸ծⰖ⠍〿⟄⿺湱Ⱒ倝ꢉ㼆✵DeepSeek垷㘗㖈絊畮❡ㅷ涸䵨鲿䞔ⲃ鵳遤絡雦唙椚կ •䩛劼倰꬗⼶⚹ծ㼭碛ծ虽罆ծOPPOծvivo瘝ㅷ晥湱Ⱒ劼㘗䵨鲿DeepSeek垷㘗㹊梡兰腊꡼瘷ծ俒呩欰䧭瘝⸆腊•PC倰꬗翫䟝〄䋒䵨鲿DeepSeek垷㘗涸YOGA禹⴩疴雵劥ㄤ♧⡤劼㖈烁⥂侨䰘ꥧ猙㸝Ⰼ涸⵸䲿♴㹊梡ぐ碫䎾欽•㹻歏倰꬗嵳⥌ծ繠涸ծꟋ赙ծTCL瘝ㅷ晥䲀ⴀ涸兰腊歏錠ծ瑟靈瘝❡ㅷ⦶⸔垷㘗腊⸂㹊梡兰腊露갉㼆霢•导鲨倰 ꬗  嫱 ❇ 鶓 ծ ⚎ 굥 ծ 艗 ⸷ 瘝 ㅷ 晥䲀 ⴀ 涸湱 Ⱒ 鲨㘗䵨鲿DeepSeek垷㘗㹊梡兰腊䏠菣⸆腊涸Ⰼ꬗⼮紩կ 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 4.DeepSeek模型智能终端部署进展 DeepSeek模型在智能终端的部署主要集中在语音交互、智能问答、AI助手、智能座舱等方面。 ♧ծ DeepSeek V3刿倝⼆、DeepSeek部署进展三、DeepSeek是谁⽬录四、DeepSeek技术路线解析五、DeepSeek调⽤与部署六、如何使⽤DeepSeek七、趋势判断 1.DeepSeek简介公司简介 DeepSeek全称杭州深度求索人工智能基础技术研究有限公司，简称深度求索，成立于2023年7月，是幻方量化旗下的AI公司，专注于实现通用人工智能（AGI）,具有深厚的软硬件协同设计底蕴。模型简介 DeepSeek共研发开源十余款模型，目前最受关注的有V3对话模型和R1推理模型，分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出，两次模型发布都造成了后续DeepSeek关注度的飙升，12月28日DeepSeek指数达到约6000万，1月31日达9.8亿。 V3：是采用混合专家架构（MoE）的高性能对话模型，支持多任务处理并在代码生成、数学推理等场景表现优异。 R1：是基于强化学习训练的推理模型，专注于代码生成和复杂数学问题解决，推理能力通过蒸馏技术可迁移至小型模型。 1.通用模型&推理模

点击免费查看完整报告

DeepSeek完全实用手册V1.5-技术原理·使用技巧·部署进展

一、DeepSeekV3模型更新

二、DeepSeek部署进展

三、DeepSeek技术路线解析

四、DeepSeek调用与部署

五、如何使用DeepSeek

六、趋势判断

你可能感兴趣

DeepSeek完全实用手册——从技术原理到使用技巧

深度解读DeepSeek：部署、使用、安全

深度解读DeepSeek：部署、使用、安全

2025大模型原理、技术与应用：从GPT到DeepSeek

中国宏观经济月报：DeepSeek的抄袭争议——蒸馏技术的使用

GenAI：74.6%的中国财富500强企业正在部署或使用GenAI技术

如何向ChatGPT提问以获得高质量答案：提示技巧工程完全指南

DeepSeek如何赋能职场应用——从提示语技巧到多场景应用（0212）

DeepSeek原理与落地应用

人工智能行业：DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用