AI智能总结
DeepSeek原理与落地应用 AI肖睿团队(孙萍、吴寒、周嵘、李娜、张惠军、刘誉)2025年03月01日厦门大学大数据百家讲坛 •北大青鸟人工智能研究院•北大计算机学院元宇宙技术研究所•北大教育学院学习科学实验室 目录 C O N T E N T S 人 工 智 能 概 念 辨 析D e e p S e e kR 1 大 模 型 原 理落 地 应 用 人 工 智 能 概 念 辨 析 PART 01 大模型相关术语 l多模态 Ø文本、图片、音频、视频 lAI工具(国内)ØDeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索... l通用模型 Ø大语言模型(LLM,LargeLanguage Model)Ø视觉模型(图片、视频)Ø音频模型Ø多模态模型Ø…… l行业模型(垂直模型、垂类模型)Ø教育、医疗、金融等 大模型的前世今生 •人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) •运算推理:规则核心;自动化•知识工程:知识核心;知识库+推理机•机器学习:学习核心;数据智能(统计学习方法,数据建模)•常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,…..•人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样•传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..•深度神经网络:深度学习•传统网络架构:DBN,CNN,RNN,ResNet,Inception,……•Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention)•编码器(BERT):多数embedding模型,Ernie早期版本,…….•混合网络:T5、GLM•解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心•生成式人工智能(GenAI):AIGC•DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、……•OpenAI GPT(ChatGPT)、Claude、Llama、Grok、……•Diffusion架构:主要用于视觉模型(比如Stable Diffusion、DALLE),现在也开始尝试用于语言模型•Diffusion+Transformer架构:例如Sora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 生成模型与推理大模型的对比 D e e p S e e kR 1 PART 02 DeepSeek公司 公司成立背景与发展历程 DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新大语言模型(LLM)的创新应用 作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景 投资者背景与市场定位 DeepSeek模型系列 DeepSeek最新的生成模型和推理模型版本对比 常见推理模型 为什么火:能力突破、开源、低成本、国产化 基础能力:进入推理模型阶段,跻身全球第一梯队 推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。 国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。 DeepSeek以“推理能力+第一梯队性能”为核心基础,叠加:开源开放、超低成本、国产自主研发三大优势,不仅实现技术代际跨越,更推动AI技术普惠化与国产化生态繁荣,成为全球大模型赛道的重要领跑者。 核心加分项:开源、低成本、国产化 •开源:技术共享,生态共建 全量开源训练代码、数据清洗工具及微调框架,开发者可快速构建教育、金融、医疗等垂直领域应用,推动社区协同创新。 •低成本:普惠企业级AI应用 做了大量的模型架构优化和系统工程优化。训练成本仅$557w:显著低于行业同类模型,打破高价壁垒。推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。 •国产化:技术自主,缩短差距 将国产模型与美国的代际差距从3-5年缩短至3-5个月,突破“卡脖子”技术瓶颈。构建多行业专属模型矩阵,全面支持国内产业智能化升级。 DeepSeek的算法和算力突破 Deepseek官网地址:http://ai.comhttps://chat.deepseek.com •DeepSeek R1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化•它做到这个水平只用到少得多的资源,所以价格十分便宜•它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门•DeepSeek深度求索公司是一家纯粹的中国公司 DeepSeek-R1训练技术全部公开,论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 对AI行业的重大影响 01 03 02 价格下调 推动创新 打破垄断 DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响 DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面 DeepSeek-R1促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向 模型有三种使用方式:在软件系统中调用官方API、模型微调、直接使用。前两种涉及到IT技术比较多。这里讲的是直接使用的三种方法,适合普通用户。 DeepSeek直接使用🐀 DeepSeek官方-开袋即食🐀 API:https://platform.deepseek.com/ 官网:https://chat.deepseek.com/ 手机APP IOS用户:https://apps.apple.com/cn/app/deepseek/id6737597349 安卓用户:https://app.mi.com/details?id=com.deepseek.chat DeepSeek第三方通道 阿里百炼(API):https://account.aliyun.com/ 硅基流动(网页+API): 火山引擎(API): https://cloud.siliconflow.cn/i/9VzvgYQL https://www.volcengine.com/product/ark 秘塔AI搜索(网页):https://metaso.cn/ 纳米AI搜索(网页):https://www.n.cn/ AskManyAI(网页):https://chat.scnet.cn/ DeepSeek私有化部署 模型的私有化部署的方式: •Ollama部署:个人本地部署【推荐】,方便快速,适用于蒸馏模型•vLLM部署:生产、开发、垂直领域私有化部署,精度可控,更专业•其它 部署DeepSeek-R1满血版的算力要求和性能 模型原理 PART 03 GPT工作原理-1 GPT工作原理-2 GPT工作原理-3 模型参数:1.8万亿参数(GPT-4) GPT-4o上下文窗口大小:8192个token(标记) 生成模型的优势与劣势 优势 劣势 推理模型(DeepSeek-R1)工作原理 lDeepSeekR1论文:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf lDeepSeekR1论文图解:https://zhuanlan.zhihu.com/p/20844750193 落地应用 PART 04 DeepSeek让人类与AI对话更加简单,提示词让对话质量提升立竿见影,适合所有层级使用者快速上手。 DeepSeek的深度思考模式基于DeepSeekR1模型,是一种推理模型。相比较于传统的生成模型,使用DeepSeekR1模型时的提示词技巧有较大的变化。 DeepSeek提示词技巧 1.DeepSeek提示词技巧-真诚+直接 传统 DeepSeek 你现在是一个新能源汽车的市场研究分析师,这里有一份调研报告总结需要写成周报,请按周报的格式帮我完成并进行润色,不少于500字。 帮我把这份报告包装一下,我要写成周报给老板看,老板很看重数据。 2.DeepSeek提示词技巧-通用公式 我要(做)**,要给**用,希望达到**效果,但担心**问题 例如:我要做一个从北京到日本的旅游攻略,要给爸妈用,希望让他们在日本开心的玩20天,但我担心他们玩的累,腿和腰不太好 2.DeepSeek提示词技巧-通用公式 DeepSeek输出的日程安排清晰明确 贴心准备清单甚至细致考虑到了每日5000步 ① 38③ 2.DeepSeek提示词技巧-通用公式 “内心戏” 3.DeepSeek提示词技巧-说人话 适合场景:科研,了解新事物 了避免DeepSeek的回答过于官方、专业,可以尝试这三个字“说人话” 你问:什么是“波粒二象性”,DeepSeek大概率会给出专业且看不懂的回答,和百度百科差不多。但如果给ta一句“说人话”,ta就会生动形象的做一些举例 说人话 40 4.DeepSeek提示词技巧-反向PUA DeepSeek有一套自己的思维链,也就是ta自带的思考逻辑,那么如果你想要DeepSeek更卖力给你搬砖,就需要你运用“反向PUA” “请你列出10个反对理由再给方案” “如果你是老板,你会怎样批评这个方案?” “这个回答你满意吗?请你把回答复盘至少10轮” 5.DeepSeek提示词技巧-善于模仿 如果你想写一篇文案,用提示词约束,可能效果一般般,但如果你给一篇文章模仿或者让ta模仿谁的语气,DeepSeek大概率会写到你的心趴上。 6.DeepSeek提示词技巧-擅长锐评 DeepSeek自带情商,各种语气也能完美拿捏! 6.DeepSeek提示词技巧-擅长锐评 ”__________,笑死“句式,触发DeepSeek的毒舌属性 44 7.DeepSeek提示词技巧-激发深度思考 DeepSeek官方提示词解读 •代码类•内容分类•结构化输出•角色扮演(人设、情景)•创作类•翻译类•提示词生成 清晰表达,提示工作流程目标、能力、知识储备、使用说明结构化要求+示例描述角色性格特征、指定输出情景风格、要求、主题“信”、“达”、“雅”生成提示词的提示词 官方文档链接:https://api-docs.deepseek.com/zh-cn/prompt-library DeepSeek-R1应用场景 l推理密集型任务 Ø编程任务中的代码生成、算法设计,媲美Claude 3.5SonetØ数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。 l教育与知识应用 Ø可用于解决教育领域的问题,支持知识理解与解答。Ø可用于科研任务的实验设计、数据分析和论文撰写。 l文档分析与长上下文理解 Ø适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。 l开放领域问答与写作Ø在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。 教育与学术赋能-教学设计 教学设计 需求:北大青鸟基于所提供的课程相关信息,包括主题、教学目标、课时安排以及学情等内容,按照特定流程来设计一份课程大纲草案,重点在于给出大概的课程内容、设计思路 技 能+教 学 目 标+工 作 流 教育与学术赋能-教学活动 教学活动 请生成分组演练中的话术,用表格输出,要求:角色、话术