行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

DeepSeek原理与落地应用

信息技术2025-03-01-北京大学华***

AI智能总结

研报总结

一、人工智能概念辨析

大模型相关术语：多模态（文本、图片、音频、视频）、AI工具（DeepSeek、豆包、Kimi等）、通用模型（大语言模型、视觉模型、音频模型、多模态模型）、行业模型（教育、医疗、金融等）。
人工智能发展历程：从机器具备动物智能、人类智能到非人类智能（超人类智能），从运算推理、知识工程到机器学习、人工神经网络，再到深度神经网络、Transformer架构、编码器、解码器等。
大模型发展阶段：生成模型与推理模型，以OpenAI GPT-4o和OpenAI o1为例，对比两者在模型定位、推理能力、多模态支持、应用场景和用户交互体验等方面的差异。

二、DeepSeek R1推理模型

DeepSeek公司背景：由知名私募巨头幻方量化孕育而生，专注于开发先进的大语言模型(LLM)和相关技术。
DeepSeek模型系列：生成模型和推理模型，对比两者在性能、应用范围等方面的差异。
DeepSeek R1特点：推理能力突破、开源、低成本、国产化，具有“推理能力+第一梯队性能”的核心基础，叠加开源、低成本、国产自主研发三大优势。
DeepSeek R1应用场景：推理密集型任务、教育与知识应用、文档分析与长上下文理解、开放领域问答与写作等。

三、DeepSeek R1模型原理

GPT工作原理：概率预测+文字接龙、预训练（自监督）、监督微调、人类反馈强化学习。
生成模型的优势与劣势：语言理解和生成能力、世界知识能力、推理能力、幻觉、知识库有限、上下文窗口限制。
推理模型（DeepSeek-R1）工作原理：思维链、模型蒸馏、强化学习。

四、DeepSeek R1落地应用

DeepSeek提示词技巧：真诚+直接、通用公式、说人话、反向PUA、善于模仿、擅长锐评、激发深度思考。
DeepSeek-R1 应用场景：教育与学术赋能（教学设计、教学活动、作业批改、个性化教案、医学专业病理诊断、论文全流程辅助、论文选题、学术研究、知识付费、作业辅导等）。

五、DeepSeek-R1对AI行业的影响

打破垄断价格下调：DeepSeek-R1的API定价仅为行业均价的1/10，推动了中小型企业低成本接入AI。
推动创新：促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向。

DeepSeek原理与落地应用 AI肖睿团队（孙萍、吴寒、周嵘、李娜、张惠军、刘誉）2025年03月01日厦门大学大数据百家讲坛 •北大青鸟人工智能研究院•北大计算机学院元宇宙技术研究所•北大教育学院学习科学实验室目录 C O N T E N T S 人工智能概念辨析D e e p S e e kR 1 大模型原理落地应用人工智能概念辨析 PART 01 大模型相关术语 l多模态 Ø文本、图片、音频、视频 lAI工具（国内）ØDeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索... l通用模型 Ø大语言模型（LLM，LargeLanguage Model）Ø视觉模型（图片、视频）Ø音频模型Ø多模态模型Ø…… l行业模型（垂直模型、垂类模型）Ø教育、医疗、金融等大模型的前世今生 •人工智能：让机器具备动物智能，人类智能，非人类智能（超人类智能） •运算推理：规则核心；自动化•知识工程：知识核心；知识库+推理机•机器学习：学习核心；数据智能（统计学习方法，数据建模）•常规机器学习方法：逻辑回归，决策森林，支持向量机，马尔科夫链，…..•人工神经网络：与人脑最大的共同点是名字，机制和架构并不一样•传统神经网络：霍普菲尔德网络，玻尔兹曼机，…..•深度神经网络：深度学习•传统网络架构：DBN，CNN，RNN，ResNet，Inception，……•Transformer架构：可以并行矩阵计算（GPU），核心是注意力机制（Attention）•编码器（BERT）：多数embedding模型，Ernie早期版本，…….•混合网络：T5、GLM•解码器（GPT）：大语言模型（LLM），也是传统的多模态模型的核心•生成式人工智能（GenAI）：AIGC•DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、……•OpenAI GPT（ChatGPT）、Claude、Llama、Grok、……•Diffusion架构：主要用于视觉模型（比如Stable Diffusion、DALLE），现在也开始尝试用于语言模型•Diffusion+Transformer架构：例如Sora的DiT（加入Diffusion的视觉模型），部分新的多模态模型架构大模型的发展阶段生成模型与推理大模型的对比 D e e p S e e kR 1 PART 02 DeepSeek公司公司成立背景与发展历程 DeepSeek专注于开发先进的大语言模型(LLM)和相关技术，旨在通过这些技术推动人工智能在多个领域的应用和创新大语言模型(LLM)的创新应用作为由知名私募巨头幻方量化孕育而生的公司，DeepSeek获得了强大的资金支持和行业影响力，幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”，管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景投资者背景与市场定位 DeepSeek模型系列 DeepSeek最新的生成模型和推理模型版本对比常见推理模型为什么火：能力突破、开源、低成本、国产化基础能力：进入推理模型阶段，跻身全球第一梯队推理能力跃升：DeepSeek大模型核心技术突破，实现复杂推理任务的精准处理与高效执行，覆盖多模态场景应用。国际竞争力对标：模型综合性能跃居全球第一梯队，技术指标与国际顶尖水平（如GPT系列、Claude等）直接对标，奠定国产大模型的行业标杆地位。 DeepSeek以“推理能力+第一梯队性能”为核心基础，叠加：开源开放、超低成本、国产自主研发三大优势，不仅实现技术代际跨越，更推动AI技术普惠化与国产化生态繁荣，成为全球大模型赛道的重要领跑者。核心加分项：开源、低成本、国产化 •开源：技术共享，生态共建全量开源训练代码、数据清洗工具及微调框架，开发者可快速构建教育、金融、医疗等垂直领域应用，推动社区协同创新。 •低成本：普惠企业级AI应用做了大量的模型架构优化和系统工程优化。训练成本仅$557w：显著低于行业同类模型，打破高价壁垒。推理成本降低83%：千亿参数模型适配中小企业需求，加速商业化落地。 •国产化：技术自主，缩短差距将国产模型与美国的代际差距从3-5年缩短至3-5个月，突破“卡脖子”技术瓶颈。构建多行业专属模型矩阵，全面支持国内产业智能化升级。 DeepSeek的算法和算力突破 Deepseek官网地址：http://ai.comhttps://chat.deepseek.com •DeepSeek R1达到了跟o1相当、或者至少接近的推理能力，且将推理过程可视化•它做到这个水平只用到少得多的资源，所以价格十分便宜•它是完全开源的并且还发布论文，详细介绍了训练中所有的步骤和窍门•DeepSeek深度求索公司是一家纯粹的中国公司 DeepSeek-R1训练技术全部公开，论文链接：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 对AI行业的重大影响 01 03 02 价格下调推动创新打破垄断 DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响 DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面 DeepSeek-R1促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向模型有三种使用方式：在软件系统中调用官方API、模型微调、直接使用。前两种涉及到IT技术比较多。这里讲的是直接使用的三种方法，适合普通用户。 DeepSeek直接使用🐀 DeepSeek官方-开袋即食🐀 API:https://platform.deepseek.com/ 官网:https://chat.deepseek.com/ 手机APP IOS用户：https://apps.apple.com/cn/app/deepseek/id6737597349 安卓用户：https://app.mi.com/details?id=com.deepseek.chat DeepSeek第三方通道阿里百炼（API）：https://account.aliyun.com/ 硅基流动（网页+API）：火山引擎（API）： https://cloud.siliconflow.cn/i/9VzvgYQL https://www.volcengine.com/product/ark 秘塔AI搜索（网页）：https://metaso.cn/ 纳米AI搜索（网页）：https://www.n.cn/ AskManyAI（网页）：https://chat.scnet.cn/ DeepSeek私有化部署模型的私有化部署的方式： •Ollama部署:个人本地部署【推荐】，方便快速，适用于蒸馏模型•vLLM部署：生产、开发、垂直领域私有化部署，精度可控，更专业•其它部署DeepSeek-R1满血版的算力要求和性能模型原理 PART 03 GPT工作原理-1 GPT工作原理-2 GPT工作原理-3 模型参数：1.8万亿参数（GPT-4) GPT-4o上下文窗口大小：8192个token(标记) 生成模型的优势与劣势优势劣势推理模型（DeepSeek-R1)工作原理 lDeepSeekR1论文：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf lDeepSeekR1论文图解：https://zhuanlan.zhihu.com/p/20844750193 落地应用 PART 04 DeepSeek让人类与AI对话更加简单，提示词让对话质量提升立竿见影，适合所有层级使用者快速上手。 DeepSeek的深度思考模式基于DeepSeekR1模型，是一种推理模型。相比较于传统的生成模型，使用DeepSeekR1模型时的提示词技巧有较大的变化。 DeepSeek提示词技巧 1.DeepSeek提示词技巧-真诚+直接传统 DeepSeek 你现在是一个新能源汽车的市场研究分析师，这里有一份调研报告总结需要写成周报，请按周报的格式帮我完成并进行润色，不少于500字。帮我把这份报告包装一下，我要写成周报给老板看，老板很看重数据。 2.DeepSeek提示词技巧-通用公式我要（做）**，要给**用，希望达到**效果，但担心**问题例如：我要做一个从北京到日本的旅游攻略，要给爸妈用，希望让他们在日本开心的玩20天，但我担心他们玩的累，腿和腰不太好 2.DeepSeek提示词技巧-通用公式 DeepSeek输出的日程安排清晰明确贴心准备清单甚至细致考虑到了每日5000步 ① 38③ 2.DeepSeek提示词技巧-通用公式 “内心戏” 3.DeepSeek提示词技巧-说人话适合场景：科研，了解新事物了避免DeepSeek的回答过于官方、专业，可以尝试这三个字“说人话” 你问：什么是“波粒二象性”，DeepSeek大概率会给出专业且看不懂的回答，和百度百科差不多。但如果给ta一句“说人话”，ta就会生动形象的做一些举例说人话 40 4.DeepSeek提示词技巧-反向PUA DeepSeek有一套自己的思维链，也就是ta自带的思考逻辑，那么如果你想要DeepSeek更卖力给你搬砖，就需要你运用“反向PUA” “请你列出10个反对理由再给方案” “如果你是老板，你会怎样批评这个方案？” “这个回答你满意吗？请你把回答复盘至少10轮” 5.DeepSeek提示词技巧-善于模仿如果你想写一篇文案，用提示词约束，可能效果一般般，但如果你给一篇文章模仿或者让ta模仿谁的语气，DeepSeek大概率会写到你的心趴上。 6.DeepSeek提示词技巧-擅长锐评 DeepSeek自带情商，各种语气也能完美拿捏！ 6.DeepSeek提示词技巧-擅长锐评 ”__________，笑死“句式，触发DeepSeek的毒舌属性 44 7.DeepSeek提示词技巧-激发深度思考 DeepSeek官方提示词解读 •代码类•内容分类•结构化输出•角色扮演（人设、情景）•创作类•翻译类•提示词生成清晰表达，提示工作流程目标、能力、知识储备、使用说明结构化要求+示例描述角色性格特征、指定输出情景风格、要求、主题“信”、“达”、“雅”生成提示词的提示词官方文档链接：https://api-docs.deepseek.com/zh-cn/prompt-library DeepSeek-R1应用场景 l推理密集型任务 Ø编程任务中的代码生成、算法设计，媲美Claude 3.5SonetØ数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。 l教育与知识应用 Ø可用于解决教育领域的问题，支持知识理解与解答。Ø可用于科研任务的实验设计、数据分析和论文撰写。 l文档分析与长上下文理解 Ø适合处理需要深入文档分析和理解长上下文的任务，例如复杂信息提取与整合。 l开放领域问答与写作Ø在内容生成、问题回答以及创造性写作中具有广泛应用，例如生成高质量文本或进行内容编辑。教育与学术赋能-教学设计教学设计需求：北大青鸟基于所提供的课程相关信息，包括主题、教学目标、课时安排以及学情等内容，按照特定流程来设计一份课程大纲草案，重点在于给出大概的课程内容、设计思路技能+教学目标+工作流教育与学术赋能-教学活动教学活动请生成分组演练中的话术，用表格输出，要求：角色、话术

点击免费查看完整报告

你可能感兴趣

DeepSeek原理与落地应用

你可能感兴趣

DeepSeek内部研讨系列：AI Agent与Agentic AI的原理和应用

2025大模型原理、技术与应用：从GPT到DeepSeek

DeepSeek 原理与教育场景应用

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学