DeepSeek原理与落地应用 AI肖睿团队 (孙萍、吴寒、周嵘、李娜、张惠军、刘誉)2025年03月01日 厦门大学大数据百家讲坛 北大青鸟人工智能研究院 北大计算机学院元宇宙技术研究所 北大教育学院学习科学实验室 7 目录 CONTENTS 人工智能概念辨析DeepSeekR1 大模型原理落地应用 PART01 人工智能概念辨析 大模型相关术语 多模态 文本、图片、音频、视频 AI工具(国内) DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索 通用模型 大语言模型(LLM,LargeLanguageModel) 视觉模型(图片、视频) 音频模型 多模态模型 行业模型(垂直模型、垂类模型) 教育、医疗、金融等 大模型的前世今生 人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) 运算推理:规则核心;自动化 知识工程:知识核心;知识库推理机 机器学习:学习核心;数据智能(统计学习方法,数据建模) 常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链, 人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样 传统神经网络:霍普菲尔德网络,玻尔兹曼机, 深度神经网络:深度学习 传统网络架构:DBN,CNN,RNN,ResNet,Inception, Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention) 编码器(BERT):多数embedding模型,Ernie早期版本, 混合网络:T5、GLM 解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心 生成式人工智能(GenAI):AIGC DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、 OpenAIGPT(ChatGPT)、Claude、Llama、Grok、 Diffusion架构:主要用于视觉模型(比如StableDiffusion、DALLE),现在也开始尝试用于语言模型 DiffusionTransformer架构:例如Sora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 生成模型推理模型 ref中文大模型基准测评2024年度报告20250108 生成模型与推理大模型的对比 比较项 OpenAIGPT4o(生成模型) OpenAIo1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来 推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。 多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。 应用场景 适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。 适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理。 用户交互体验 提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。 可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。 PART02 DeepSeekR1 DeepSeek公司 公司成立背景与发展历程 大语言模型LLM的创新应用 投资者背景与市场定位 里程碑 DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技企业,专注于人工智能基础技术的研究与开发 DeepSeek专注于开发先进的大语言模型LLM和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新 作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景 2025年1月20日推出DeepSeekR1推理模型 DeepSeek模型系列 DeepSeek最新的生成模型和推理模型版本对比 比较方面 生成模型(V3) 推理模型(R1) 设计初衷 想要在各种自然语言处理的任务中都能表现好,更通用 重点是为了搞定复杂的推理情况,比如深度的逻辑分析和解决问题 性能展现 在数学题、多语言任务还有编码任务里表现不错,像Cmath能得907分,HumanEval编码任务通过率是652 在需要逻辑思考的测试里很棒,比如DROP任务F1分数能达到922,AIME2024的通过率是798 应用的范围 适合大规模的自然语言处理工作,像对话式AI、多语言翻译还有内容生成等等,能给企业提供高效的AI方案,满足好多领域的需求 适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务,也能拿来当教育工具,帮学生锻炼逻辑思维 常见推理模型 DeepSeekR1 OpenAIo1OpenAIo3mini Gemini20Grok3Kimi15 为什么火:能力突破、开源、低成本、国产化 基础能力:进入推理模型阶段,跻身全球第一梯队 推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。 国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。 核心加分项:开源、低成本、国产化 开源:技术共享,生态共建 全量开源训练代码、数据清洗工具及微调框架,开发者可快速构建教育、金融、医疗等垂直领域应用,推动社区协同创新。 低成本:普惠企业级AI应用 做了大量的模型架构优化和系统工程优化。 训练成本仅557w:显著低于行业同类模型,打破高价壁垒。 推理成本降低83:千亿参数模型适配中小企业需求,加速商业化落地。 国产化:技术自主,缩短差距 将国产模型与美国的代际差距从35年缩短至35个月,突破“卡脖子”技术瓶颈。构建多行业专属模型矩阵,全面支持国内产业智能化升级。 DeepSeek以“推理能力第一梯队性能”为核心基础,叠加:开源开放、超低成本、国产自主研发三大优势,不仅实现技术代际跨越,更推动AI技术普惠化与国产化生态繁荣,成为全球大模型赛道的重要领跑者。 18 19 DeepSeek的算法和算力突破 Deepseek官网地址:httpaicomhttpschatdeepseekcom DeepSeekR1训练技术全部公开,论文链接:httpsgithubcomdeepseekaiDeepSeekR1blobmainDeepSeekR1pdf DeepSeekR1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化 它做到这个水平只用到少得多的资源,所以价格十分便宜 它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门 DeepSeek深度求索公司是一家纯粹的中国公司 混合专家MOE 直接硬件编程 PTX 通讯优化DualPipe 多头潜在注意力 MLA 混合精度训练 FP8 并行训练框架 HAI 强化学习GRPO 多Token预测 MTP 测试时计算 TTC 19 01 02 03 打破垄断 价格下调 推动创新 DeepSeekR1以低成本和开源特性打破以往头部企业巨头割据局面 DeepSeekR1的API定价仅为行业均价的110推动了中小型企业低成本接入AI对行业产生了积极影响 DeepSeekR1促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向 对AI行业的重大影响 模型有三种使用方式:在软件系统中调用官方API、模型微调、直接使用。前两种涉及到IT技术比较多。这里讲的是直接使用的三种方法,适合普通用户。 21 21 DeepSeek直接使用 22 DeepSeek官方开袋即食 官网httpschatdeepseekcomAPIhttpsplatformdeepseekcom 手机APP IOS用户: httpsappsapplecomcnappdeepseekid6737597349 安卓用户: httpsappmicomdetailsidcomdeepseekchat23 DeepSeek第三方通道 国家超算平台(网页)httpschatscnetcn 硅基流动(网页API):httpscloudsiliconflowcni9VzvgYQL 阿里百炼(API):httpsaccountaliyuncom 火山引擎(API):httpswwwvolcenginecomproductark AskManyAI(网页):httpschatscnetcn 纳米AI搜索(网页):httpswwwncn 秘塔AI搜索(网页):httpsmetasocn MollyR1(小程序)24 DeepSeek私有化部署 模型的私有化部署的方式: Ollama部署个人本地部署【推荐】,方便快速,适用于蒸馏模型 vLLM部署:生产、开发、垂直领域私有化部署,精度可控,更专业 其它 Model BaseModel 特点 DeepSeekR1DistillQwen15B Qwen25Math15B 蒸馏模型,能力稍弱 实际上是增加了推理能力的Qwen模型和Llama模型 DeepSeekR1DistillQwen7B Qwen25Math7B DeepSeekR1DistillLlama8B Llama318B DeepSeekR1DistillQwen14B Qwen2514B DeepSeekR1DistillQwen32B Qwen2532B DeepSeekR1DistillLlama70B Llama3370BInstruct DeepSeekR1671B DeepSeekV3Base 满血版,能力最强 DeepSeekR1全家桶25 部署DeepSeekR1满血版的算力要求和性能 PART03 模型原理 1收到提示词 示例“今天天气不错,我决定” 2将输入拆分为token “今”“天”“天”“气”“不” “错”“,”“我”“决”“定” 3采用Transformer架构处理token 理解token之间的关系 识别提示词的整体含义 Generative (生成式) G P T Pretrained (预训练) Transformer (变换器) 概率预测文字接龙 LLMLargeLanguageModel 自回归:重复步骤4和步骤5直到形成完整的句子 4基于上下文预测下一个token 为可能的单词分配概率分数 示例“去”07“停02“站01 5根据概率分数选择标记 示例“去” 示例今天天气不错,我决定去公园 GPT工作原理1 GPT工作原理2 大模型工作过程 上下文 训练知识 预训练 (自监督) 监督微调 人类反馈强化学习 接收输入 处理输入 进行推理 生成输出 阶段1:模型训练阶段2:推理 训练语料(gpt3 典型的新技能学习曲线:规模到达临界点之后才会迅速增长 数据来源 说明 维基百科 在线百科严谨 图书 经典为主的古登堡计划和自助出版平台Smashwords等 杂志期刊 论文:ArXiv等 链接 WebTextReddit CommonCrawl 开源项目爬取互联网所有数据 GitHub 程序员聚集地 合计 700多GB约有19万套四大名著的阅读量5