我们该如何看待DeepSeek whathowwhyandnext 陈果 湖南大学信息科学与工程学院教授国家超级计算长沙中心常务副主任 声明:1仅代表个人观点,不代表任何机构立场;2面向不具备AI专业知识背景的群体,为保持易懂性简化了很多技术细节,且不求涵盖所有方面;3主要以R1模型视角讲解,其他模型在第三大块有简要介绍;4受个人研究领域及认知水平所限,难免有疏漏或偏颇之处,欢迎批评指正。 Whatisit:DeepSeek是什么 从ChatGPT到DeepSeekR1,TA到底厉害在哪里? DeepSeek基本概念(用户角度) Howtouseit:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地 WhyitworksDeepSeek背后的原理 Transformer大模型基础 DeepSeek模型的发展历程 Next下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 Whatisit:DeepSeek是什么 从ChatGPT到DeepSeekR1,TA到底厉害在哪里? DeepSeek基本概念(用户角度) Howtouseit:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地 WhyitworksDeepSeek背后的原理 Transformer大模型基础 DeepSeek模型的发展历程 Next下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 从ChatGPT开始 相当数量的人(圈内人、技术潮人为主)开始切身感受到AI带来的巨大冲击 2022年11月30日 OpenAI发布对话式AI模型ChatGPT 两个月用户破亿 ChatGPT的诞生在全球范围内引爆人工智能(AI) httpswwwthepapercnnewsDetailforward21909720 httpsblogcsdnnetqq73332379articledetails1298614285 httpsmediumcomlmpo大型语言模型简史从transformer2017到deepseekr12025cc54d658fb43 生成式人工智能(AIGC)和大语言模型(LLM,也简称大模型) 生成式人工智能(AIGC) 支撑实现 技术原理 GPT 大语言模型(LLM) Chat Transformer 模型结构 用于聊天、对话 Generative Pretrained 预训练,模型的制造方法 生成式,模型的输出方式 输出又送回输入,不断迭代接龙 输出又送回输入,不断迭代接龙 这就是为啥LLM经常出现“幻觉” ChatGPT可以自然对话、精准问答,生成代码、邮件、论文、小说。。。 用鲁迅口吻写篇“长沙春天”的散文用C写一段爬虫代码写一篇信创产业的研究报告 12 翻译心理咨询建议代码阅读理解和DEBUG 从ChatGPT到OpenAIO系列 2024年9月12日,OpenAI官方宣布了OpenAIo1推理大模型。 OpenAI宣称OpenAIo1大模型推理(Reasoning)能力相比较当前的大语言模型(GPT4o)有了大幅提升。由于OpenAIo1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始称这里有思考过程的大模型为推理大模型。 一个推理案例 16 非推理模型 直接生成答案 推理模型 一步一步推导 数学、代码、逻辑等领域优势明显 美国数学邀请赛编程竞赛平台生物物理化学难题数据集 还有算力scaling方面的独特优势,后面再说 DeepSeekR1厉害在哪里 此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章 1首个展示思维链过程的推理模型 网页聊天免费 2价格“屠夫” 曾经:o1模型的API价格为每百万输入tokens约为15美元(约合人民币55元),每百万输出tokens60美元(约合人民币438元) 网页聊天也需要240美金年的会员才能用 3首个开源的推理模型! 下载模型,可以本 地安装,本地使用! httpsdeepseekhnueducn 4纯国产!技术创新!训练和推理高效5性能领先! DeepSeekR1让最前沿的大模型技术走入寻常百姓家,所有人(尤其是所有中国人)都能直接体验。 量变带来质变! 以前AI是“菁英游戏”,现在AI可以是“人民战争”!我国是这个量变(和即将到来的质变)的驱动源、主导者和聚集地! 7天用户破亿! 这还不包括海量本地部署的用户 DeepSeek基本概念(用户角度) 更详细的原理在第三部分介绍 各种网上的服务!官方的、其他企业的 还有很多,不一一列举。。。 本地自己搭一套! httpsdeepseekhnueducn 信息传到外面不放心?外面的服务老是资源 不足?有些内容不能生成?用我们自己搭的! 模型的回答全部来自训练时的数据 数据难以及时更新 以DeepSeek为例,其训练数据为24年7月之前 网页调用 大模型(LLM) 程序API调用 模型的回答来自训练时的数据外部数据 外部数据可以及时更新 外部数据 本地文件或网上搜索 比如上传的文件(知识库)或网上搜索的资料(联网搜索) 大模型(LLM) Prompt用户一次塞给大模型的输入内容 Token:大模型输入输出的最小单位,约等于单词 上下文长度:当前prompt加上前后对话记录的长度,会一次塞给大模型作为输入 训练:“制作”大模型的过程,将海量的训练数据知识内嵌到模型中 推理inference:“运行”大模型产生输出内容的过程 推理reasoning:一种模型产生输出的方式,将一个大问题拆成多步,好像人类的步步推演 httpsmediumcomlmpo大型语言模型简史从transformer2017到deepseekr12025cc54d658fb43 Whatisit:DeepSeek是什么 从ChatGPT到DeepSeekR1,TA到底厉害在哪里? DeepSeek基本概念(用户角度) Howtouseit:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地 WhyitworksDeepSeek背后的原理 Transformer大模型基础 DeepSeek模型的发展历程 Next下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 以小见大,掌握思维方法 从一些案例出发,能干的远远比这多。思维方法!思维方法!思维方法! 案例:给我的编译原理书稿提供一个案例片段 34 案例:整理deepseek出来之前gpto1的收费情况做对比 普通搜索,想半天关键词,DSR1联网搜索,自动梳理信息, 案例:分析某地公务员录用人员情况 如,学历情况如何? 多少是计算机相关专业的? 37 案例:分析某专家研究特长,给出研究方向建议咨询 案例:写一个抽签小程序 38 案例:设计一个针对幼儿园小朋友的科普讲稿 正确理解,打开广阔天地 正确理解DeepSeek的不能 还不是AGI,不能“一步到位”! 需要用户自己具备一定的问题拆解能力、信息整合能力、迭代调优能力 有很强的能力,但也经常出错;预载很多知识,但不知道所有的知识! 利用其能力,判断其结果,改进其知识! “尽信书不如无书”!要有判断筛 选能力,擅用联网搜索和知识库! R1V3都是语言模型,不能直接处理多模态数据(图片、视频等)! 学会利用其它工具,一起来完成任务(智能体的思想源于此) 43 43 模型都有上下文长度限制,不能塞太多东西给他! 学会拆分任务,总结规律 你一个对话框里的聊天记录都会塞进模型里去,一次聊天不能聊天多 (一般128Ktokens是目前通常的最高水平) 44 不是唯一的大模型,效果也难说一骑绝尘,其本身也不是一成不变! 客观辩证地看待,积极开放地拥抱 模型很多,各有所长 (长上下文、多模态、逻辑推理、多语言,不同模型卖点不同) 2024全球AIGC产业全景图谱及报告重磅发布至顶网 Deepseek发展历程概要知乎 日新月异,进展很快 45 (重要新技术以周为单位出现) 普通软件工具上一代大模型新一代大模型 帮助掌握领域知识和技能的人,摆脱重复低级的脑力劳动 帮助掌握领域知识和技能的人,摆脱一部分中级脑力劳动 希望达到的目标:帮助大部分的普通人,摆脱一部分中级甚至是高级脑力劳动 大模型就像一个小朋友,具备了初级“智能”: 懂一点,但不全懂;知识有一点,但也不全有;有时能对,但也经常犯错 发挥你的智慧,利用各种现有工具,引导他、帮助他干活! 用的好,可以帮你减轻很大工作量,小朋友的能力能超乎你想象;用的不好,那就是熊孩子 重点是掌握使用TA的思维方法 案例很多,无法一一列举 知道TA有哪些能力 逻辑推理能力、文字生成能力、搜索总结能力、代码生成能力。。。 更重要的是知道TA有哪些不能! 会不会用,即将成为现代社会生产效率的分水岭!会用的人或组织,会远远甩开那些不会用的! 发挥你的创造力和能动性,赶紧用起来吧! 不能“一步到位”、可能经常出错、不能直接生成文件、上下文不能无限长。。。 充分认识TA的能与不能 组合多种工具一起使用! 取其所能,博采众长! Whatisit:DeepSeek是什么 从ChatGPT到DeepSeekR1,TA到底厉害在哪里? DeepSeek基本概念(用户角度) Howtouseit:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地 WhyitworksDeepSeek背后的原理 Transformer大模型基础 DeepSeek模型的发展历程 Next下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 Transformer大模型基础 这个框框里是啥?为啥能根据不同的输入上下文选择对的输出token? 人工智能目标 机器学习手段 神经网络(更厉害的手段) 深度学习 LLM (很深的神经网络) 大模型ChatGPTDeepSeek Transformer 大模型常用的一种神经网络 Transformer是一种特殊的神经网络,几乎现在所有典型大模型都采用这种神经网络 有很多类型voicetotexttexttovoicetexttoimage。。。 我们主要介绍texttotexttransformer,是现在主流大模型的基础 输入:text(可能伴随一些图像或声音等),输出:预测下一个token 53 通常重复很多次 输入token编码 计算token之间的关系 理解每个token自己的含义 编码还原成token并输出 Beholdawildpicreatureforaginginitsnative land 54 把输入的token编码成向量 以特定权重矩阵对各token的原始向量相乘,编码成特定向量 Todatethecleverest embedding thinkerofalltimewas 分词器 Todatethecleverestthinkerofalltimewas 注意力机制:计算token之间的关系 每个token的向量之间,以特定权重矩阵交叉相乘,从而计算token之间的互 相影响,把影响后的含义编码到乘完之后的token向量中 三句话都有mole这个词(鼹鼠、摩尔、痣),如何区分? Attention会通过矩阵运算把周边词的意思嵌入到mole的向量中,反应其在上下文中的含义 如何嵌入上下文含义? Q(我查)、K(查谁)、V(结果) 多头注意力(MultiheadAttentionMHA) 多个注意力矩阵,各自侧重不同方面,一起把上下文含义嵌入token向量 多层感知机:理解每个token自己的含义 每个token的向量,独立的乘以自己的特定权重矩阵,好比在进一步理解这个 t