您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [湖南大学&国家超级计算长沙中心]:2025我们该如何看待DeepSeek——what, how, why, and next? - 发现报告

2025我们该如何看待DeepSeek——what, how, why, and next?

报告封面

陈果湖南大学信息科学与工程学院教授国家超级计算长沙中心常务副主任 提纲 What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度) ◼How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法正确理解,打开广阔天地 ◼Why it works:DeepSeek背后的原理 Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 提纲 What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里? ◼How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法正确理解,打开广阔天地 Why it works:DeepSeek背后的原理Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 从ChatGPT开始 故事从ChatGPT说起 ChatGPT的诞生在全球范围内引爆人工智能(AI) 相当数量的人(圈内人、技术潮人为主)开始切身感受到AI带来的巨大冲击 2022年11月30日OpenAI发布对话式AI模型ChatGPT https://www.thepaper.cn/newsDetail_forward_21909720https://blog.csdn.net/qq_73332379/article/details/129861428https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb43 ChatGPT背后的方法 ◼生成式人工智能(AIGC)和大语言模型(LLM,也简称大模型) ChatGPT真正做的事:文字接龙 ChatGPT真正做的事:文字接龙 ChatGPT真正做的事:文字接龙 ChatGPT真正做的事:文字接龙 这就是为啥LLM经常出现“幻觉” LLM怎么学习文字接龙? 人们开始相信AI会真正变革我们的生活 ChatGPT可以自然对话、精准问答,生成代码、邮件、论文、小说。。。 •用C++写一段爬虫代码 •心理咨询建议 •代码阅读理解和DEBUG •翻译 12 从ChatGPT到OpenAI O系列 推理大模型开始走入视野:OpenAI o1 2024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。 ◼OpenAI宣称OpenAI o1大模型推理(Reasoning)能力相比较当前的大语言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始称这里有思考过程的大模型为推理大模型。 什么是推理模型 什么是推理模型 推理模型和非推理模型的区别 非推理模型直接生成答案 推理模型和非推理模型的区别 推理模型一步一步推导 推理模型在一些领域优势明显 数学、代码、逻辑等领域优势明显 还有算力scaling方面的独特优势,后面再说 DeepSeekR1厉害在哪里 此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章 DeepSeekR1的意义 1.首个展示思维链过程的推理模型 DeepSeekR1的意义 2.价格“屠夫” 曾经:o1模型的API价格为每百万输入tokens约为15美元(约合人民币55元),每百万输出tokens 60美元(约合人民币438元)网页聊天也需要240美金/年的会员才能用 DeepSeekR1的意义 3.首个开源的推理模型! 下载模型,可以本地安装,本地使用! https://deepseek.hnu.edu.cn/ DeepSeekR1的意义 5.性能领先! DeepSeekR1的最大意义 DeepSeekR1让最前沿的大模型技术走入寻常百姓家,所有人(尤其是所有中国人)都能直接体验。 量变带来质变!以前AI是“菁英游戏”,现在AI可以是“人民战争”!我国是这个量变(和即将到来的质变)的驱动源、主导者和聚集地! 这还不包括海量本地部署的用户 DeepSeek基本概念(用户角度) 更详细的原理在第三部分介绍 在哪里能用到DeepSeek? 各种网上的服务!官方的、其他企业的 本地自己搭一套! 27信息传到外面不放心?外面的服务老是资源不足?有些内容不能生成?用我们自己搭的! 还有很多,不一一列举。。。 调用DeepSeek服务的流程:普通调用 ◼模型的回答全部来自训练时的数据◼数据难以及时更新以DeepSeek为例,其训练数据为24年7月之前 调用DeepSeek服务的流程:文件和联网搜索(RAG) 模型的回答来自训练时的数据+外部数据 ◼◼外部数据可以及时更新比如上传的文件(知识库)或网上搜索的资料(联网搜索) 一些必须要知道的术语概念 Prompt:用户一次塞给大模型的输入内容Token:大模型输入输出的最小单位,约等于单词上下文长度:当前prompt加上前后对话记录的长度,会一次塞给大模型作为输入训练:“制作”大模型的过程,将海量的训练数据知识内嵌到模型中推理(inference):“运行”大模型产生输出内容的过程推理(reasoning):一种模型产生输出的方式,将一个大问题拆成多步,好像人类的步步推演 提纲 What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度) ◼How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法正确理解,打开广阔天地 Why it works:DeepSeek背后的原理Transformer——大模型基础DeepSeek模型的发展历程 ◼ ◼Next:下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 DeepSeek功能领域一览 以小见大,掌握思维方法 从一些案例出发,能干的远远比这多。思维方法!思维方法!思维方法! 写书 案例:给我的编译原理书稿提供一个案例片段 信息梳理 案例:整理deepseek出来之前gpto1的收费情况做对比 普通搜索,想半天关键词, 数据分析 案例:分析某地公务员录用人员情况 如,学历情况如何? 多少是计算机相关专业的? 咨询分析 案例:分析某专家研究特长,给出研究方向建议咨询 写程序 案例:写一个抽签小程序 做教辅 正确理解,打开广阔天地 正确理解DeepSeek的不能 DeepSeek(R1或V3)的不能 还不是AGI,不能“一步到位”! 需要用户自己具备一定的问题拆解能力、信息整合能力、迭代调优能力 DeepSeek(R1或V3)的不能 有很强的能力,但也经常出错;预载很多知识,但不知道所有的知识! 利用其能力,判断其结果,改进其知识! “尽信书不如无书”!要有判断筛选能力,擅用联网搜索和知识库! DeepSeek(R1或V3)的不能 R1/V3都是语言模型,不能直接处理多模态数据(图片、视频等)! 学会利用其它工具,一起来完成任务(智能体的思想源于此) DeepSeek(R1或V3)的不能 模型都有上下文长度限制,不能塞太多东西给他! 你一个对话框里的聊天记录都会塞进模型里去,一次聊天不能聊天多☺(一般128K tokens是目前通常的最高水平) DeepSeek(R1或V3)的不能 不是唯一的大模型,效果也难说一骑绝尘,其本身也不是一成不变! 客观辩证地看待,积极开放地拥抱 (长上下文、多模态、逻辑推理、多语言,不同模型卖点不同)2024全球AIGC产业全景图谱及报告重磅发布---至顶网 对待DeepSeek等最新大模型的正确态度 希望达到的目标:帮助大部分的普通人,摆脱一部分中级甚至是高级脑力劳动 帮助掌握领域知识和技能的人,摆脱重复低级的脑力劳动 对待DeepSeek等最新大模型的正确态度 大模型就像一个小朋友,具备了初级“智能”:懂一点,但不全懂;知识有一点,但也不全有;有时能对,但也经常犯错 发挥你的智慧,利用各种现有工具,引导他、帮助他干活!用的好,可以帮你减轻很大工作量,小朋友的能力能超乎你想象;用的不好,那就是熊孩子☺ 以小见大,掌握思维方法;正确理解,打开广阔天地 重点是掌握使用TA的思维方法 案例很多,无法一一列举 知道TA有哪些能力 逻辑推理能力、文字生成能力、搜索总结能力、代码生成能力。。。 更重要的是知道TA有哪些不能! 不能“一步到位”、可能经常出错、不能直接生成文件、上下文不能无限长。。。会不会用,即将成为现代社会生产效率的分水岭! 会用的人或组织,会远远甩开那些不会用的!发挥你的创造力和能动性,赶紧用起来吧! ◼充分认识TA的能与不能 组合多种工具一起使用!取其所能,博采众长!  提纲 What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度) ◼How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法正确理解,打开广阔天地 ◼Why it works:DeepSeek背后的原理 Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注 Transformer——大模型基础 回忆一下我们在第一部分讲的大模型原理 几个必须澄清的概念 Transformer是什么 ◼Transformer是一种特殊的神经网络,几乎现在所有典型大模型都采用这种神经网络 有很多类型voice-to-text, text-to-voice, text-to-image。。。 我们主要介绍text-to-texttransformer,是现在主流大模型的基础 输入:text(可能伴随一些图像或声音等),输出:预测下一个token Transformer整体流程速览 Embedding 以特定权重矩阵对各token的原始向量相乘,编码成特定向量 To date, the cleverestthinker of all time was ... Attention ◼注意力机制:计算token之间的关系 每个token的向量之间,以特定权重矩阵交叉相乘,从而计算token之间的互相影响,把影响后的含义编码到乘完之后的token向量中 Attention:多说两句 三句话都有mole这个词(鼹鼠、摩尔、痣),如何区分? ◼Attention会通过矩阵运算把周边词的意思嵌入到mole的向量中,反应其在上下文中的含义 Attention:多说两句 如何嵌入上下文含义? Q(我查)、K(查谁)、V(结果) Attention:多说两句 多头注意力(Multi-head Attention, MHA) 多个注意力矩阵,各自侧重不同方面,一起把上下文含义嵌入token向量 MLP(Multilayer Perceptron) ◼多层感知机:理解每个token自己的含义 每个token的向量,独立的乘以自己的特定权重矩阵,好比在进一步理解这个token自身的含义,理解后的含义反映到乘完之后的token向量中 重复很多很多次Attention和MLP 重复很多很多次Attention和MLP