行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025我们该如何看待DeepSeek——what, how, why, and next？

信息技术 2025-02-24 - 湖南大学&国家超级计算长沙中心好运联联-小童

DeepSeek研报总结

What is DeepSeek

DeepSeek 是一款基于大语言模型（LLM）的 AI 工具，其核心优势在于推理能力和开源特性。从 ChatGPT 到 DeepSeek-R1，DeepSeek 在推理能力、价格和开源方面取得了显著突破：

推理能力：DeepSeek-R1 是首个展示思维链过程的推理模型，在数学、代码、逻辑等领域表现优异。
价格优势：DeepSeek-R1 的网页聊天功能免费，相较于 OpenAI o1 模型大幅降低了成本。
开源特性：DeepSeek-R1 是首个开源的推理模型，用户可本地安装和使用。
国产技术：DeepSeek 为纯国产技术，训练和推理高效，性能领先。

How to Use DeepSeek

DeepSeek 可应用于多种场景，帮助用户提升工作效率：

功能领域：包括写书、信息梳理、数据分析、咨询分析、写程序、做教辅等。
使用方法：通过 Prompt 与模型交互，结合文件和联网搜索（RAG）获取更准确信息。
关键概念：理解 Prompt、Token、上下文长度、训练、推理、推理（步步推演）等术语。

Why it Works

DeepSeek 的原理基于 Transformer 神经网络结构：

Transformer 结构：包括 Embedding、Attention、MLP、重复计算、Unembedding 等环节，用于理解文本并生成输出。
训练过程：通过海量数据预训练和后训练对齐，使模型具备文字接龙能力。
模型发展：DeepSeek 从 2023 年成立至今，经历了 LLM 7B/67B、DeepSeek-V2、DeepSeek-V3 等阶段，不断优化模型结构和性能。

Next Steps

DeepSeek 的发展将推动 AI 生态的爆发：

生态爆发：DeepSeek 使 AI 技术普及化，可能引发生态质变。
关注环节：
- 算力底座：国产 AI 芯片和高性能互连技术是关键。
- 模型算法：开源软件和人才梯队的重要性。
- 系统软件：推理引擎和集群管理的快速更新。
- 行业应用：知识库服务平台是创业重点。
- 公共平台：功能边界和用户体验的提升。

核心观点

DeepSeek 的成功在于推理能力、开源特性和国产技术优势。
用户应掌握使用 DeepSeek 的思维方法，理解其能力与局限。
AI 生态即将爆发，算力、模型、算法、系统和应用是关键关注点。

陈果湖南大学信息科学与工程学院教授国家超级计算长沙中心常务副主任提纲 What is it：DeepSeek是什么从ChatGPT到DeepSeek-R1，TA到底厉害在哪里？DeepSeek基本概念（用户角度） ◼How to use it：我能用DeepSeek干什么以小见大，掌握思维方法正确理解，打开广阔天地 ◼Why it works:DeepSeek背后的原理 Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么生态的爆发就在眼前，整个链条上哪些方面值得关注提纲 What is it：DeepSeek是什么从ChatGPT到DeepSeek-R1，TA到底厉害在哪里？ ◼How to use it：我能用DeepSeek干什么 以小见大，掌握思维方法正确理解，打开广阔天地 Why it works:DeepSeek背后的原理Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么 生态的爆发就在眼前，整个链条上哪些方面值得关注从ChatGPT开始故事从ChatGPT说起 ChatGPT的诞生在全球范围内引爆人工智能（AI）相当数量的人（圈内人、技术潮人为主）开始切身感受到AI带来的巨大冲击 2022年11月30日OpenAI发布对话式AI模型ChatGPT https://www.thepaper.cn/newsDetail_forward_21909720https://blog.csdn.net/qq_73332379/article/details/129861428https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb43 ChatGPT背后的方法 ◼生成式人工智能（AIGC）和大语言模型（LLM，也简称大模型） ChatGPT真正做的事：文字接龙 ChatGPT真正做的事：文字接龙 ChatGPT真正做的事：文字接龙 ChatGPT真正做的事：文字接龙这就是为啥LLM经常出现“幻觉” LLM怎么学习文字接龙？人们开始相信AI会真正变革我们的生活 ChatGPT可以自然对话、精准问答，生成代码、邮件、论文、小说。。。 •用C++写一段爬虫代码 •心理咨询建议 •代码阅读理解和DEBUG •翻译 12 从ChatGPT到OpenAI O系列推理大模型开始走入视野：OpenAI o1 2024年9月12日，OpenAI官方宣布了OpenAI o1推理大模型。 ◼OpenAI宣称OpenAI o1大模型推理（Reasoning）能力相比较当前的大语言模型（GPT-4o）有了大幅提升。由于OpenAI o1模型的训练使用了一种新的AI训练方法，强调了“思维链”过程和强化学习的重要性，最终导致它在数学逻辑和推理方面有了大幅提升，大家开始称这里有思考过程的大模型为推理大模型。什么是推理模型什么是推理模型推理模型和非推理模型的区别非推理模型直接生成答案推理模型和非推理模型的区别推理模型一步一步推导推理模型在一些领域优势明显数学、代码、逻辑等领域优势明显还有算力scaling方面的独特优势，后面再说 DeepSeekR1厉害在哪里此处仅介绍一部分，DeepSeek带来的更多的意义和启示在最后一章 DeepSeekR1的意义 1.首个展示思维链过程的推理模型 DeepSeekR1的意义 2.价格“屠夫” 曾经：o1模型的API价格为每百万输入tokens约为15美元（约合人民币55元），每百万输出tokens 60美元（约合人民币438元）网页聊天也需要240美金/年的会员才能用 DeepSeekR1的意义 3.首个开源的推理模型！下载模型，可以本地安装，本地使用！ https://deepseek.hnu.edu.cn/ DeepSeekR1的意义 5.性能领先！ DeepSeekR1的最大意义 DeepSeekR1让最前沿的大模型技术走入寻常百姓家，所有人（尤其是所有中国人）都能直接体验。量变带来质变！以前AI是“菁英游戏”，现在AI可以是“人民战争”！我国是这个量变（和即将到来的质变）的驱动源、主导者和聚集地！这还不包括海量本地部署的用户 DeepSeek基本概念（用户角度）更详细的原理在第三部分介绍在哪里能用到DeepSeek？各种网上的服务！官方的、其他企业的本地自己搭一套！ 27信息传到外面不放心？外面的服务老是资源不足？有些内容不能生成？用我们自己搭的！还有很多，不一一列举。。。调用DeepSeek服务的流程：普通调用 ◼模型的回答全部来自训练时的数据◼数据难以及时更新以DeepSeek为例，其训练数据为24年7月之前调用DeepSeek服务的流程：文件和联网搜索（RAG）模型的回答来自训练时的数据+外部数据 ◼◼外部数据可以及时更新比如上传的文件（知识库）或网上搜索的资料（联网搜索）一些必须要知道的术语概念 Prompt:用户一次塞给大模型的输入内容Token：大模型输入输出的最小单位，约等于单词上下文长度：当前prompt加上前后对话记录的长度，会一次塞给大模型作为输入训练：“制作”大模型的过程，将海量的训练数据知识内嵌到模型中推理(inference)：“运行”大模型产生输出内容的过程推理(reasoning)：一种模型产生输出的方式，将一个大问题拆成多步，好像人类的步步推演提纲 What is it：DeepSeek是什么从ChatGPT到DeepSeek-R1，TA到底厉害在哪里？DeepSeek基本概念（用户角度） ◼How to use it：我能用DeepSeek干什么以小见大，掌握思维方法正确理解，打开广阔天地 Why it works:DeepSeek背后的原理Transformer——大模型基础DeepSeek模型的发展历程 ◼ ◼Next:下一步要关注什么 生态的爆发就在眼前，整个链条上哪些方面值得关注 DeepSeek功能领域一览以小见大，掌握思维方法从一些案例出发，能干的远远比这多。思维方法！思维方法！思维方法！写书案例：给我的编译原理书稿提供一个案例片段信息梳理案例：整理deepseek出来之前gpto1的收费情况做对比普通搜索，想半天关键词，数据分析案例：分析某地公务员录用人员情况如，学历情况如何？多少是计算机相关专业的？咨询分析案例：分析某专家研究特长，给出研究方向建议咨询写程序案例：写一个抽签小程序做教辅正确理解，打开广阔天地正确理解DeepSeek的不能 DeepSeek（R1或V3）的不能还不是AGI，不能“一步到位”！需要用户自己具备一定的问题拆解能力、信息整合能力、迭代调优能力 DeepSeek（R1或V3）的不能有很强的能力，但也经常出错；预载很多知识，但不知道所有的知识！ 利用其能力，判断其结果，改进其知识！ “尽信书不如无书”！要有判断筛选能力，擅用联网搜索和知识库！ DeepSeek（R1或V3）的不能 R1/V3都是语言模型，不能直接处理多模态数据（图片、视频等）！学会利用其它工具，一起来完成任务（智能体的思想源于此） DeepSeek（R1或V3）的不能模型都有上下文长度限制，不能塞太多东西给他！你一个对话框里的聊天记录都会塞进模型里去，一次聊天不能聊天多☺（一般128K tokens是目前通常的最高水平） DeepSeek（R1或V3）的不能不是唯一的大模型，效果也难说一骑绝尘，其本身也不是一成不变！客观辩证地看待，积极开放地拥抱（长上下文、多模态、逻辑推理、多语言，不同模型卖点不同）2024全球AIGC产业全景图谱及报告重磅发布---至顶网对待DeepSeek等最新大模型的正确态度希望达到的目标：帮助大部分的普通人，摆脱一部分中级甚至是高级脑力劳动帮助掌握领域知识和技能的人，摆脱重复低级的脑力劳动对待DeepSeek等最新大模型的正确态度大模型就像一个小朋友，具备了初级“智能”：懂一点，但不全懂；知识有一点，但也不全有；有时能对，但也经常犯错发挥你的智慧，利用各种现有工具，引导他、帮助他干活！用的好，可以帮你减轻很大工作量，小朋友的能力能超乎你想象；用的不好，那就是熊孩子☺ 以小见大，掌握思维方法；正确理解，打开广阔天地重点是掌握使用TA的思维方法 案例很多，无法一一列举知道TA有哪些能力 逻辑推理能力、文字生成能力、搜索总结能力、代码生成能力。。。更重要的是知道TA有哪些不能！ 不能“一步到位”、可能经常出错、不能直接生成文件、上下文不能无限长。。。会不会用，即将成为现代社会生产效率的分水岭！会用的人或组织，会远远甩开那些不会用的！发挥你的创造力和能动性，赶紧用起来吧！ ◼充分认识TA的能与不能组合多种工具一起使用！取其所能，博采众长！  提纲 What is it：DeepSeek是什么从ChatGPT到DeepSeek-R1，TA到底厉害在哪里？DeepSeek基本概念（用户角度） ◼How to use it：我能用DeepSeek干什么以小见大，掌握思维方法正确理解，打开广阔天地 ◼Why it works:DeepSeek背后的原理 Transformer——大模型基础DeepSeek模型的发展历程 ◼Next:下一步要关注什么 生态的爆发就在眼前，整个链条上哪些方面值得关注 Transformer——大模型基础回忆一下我们在第一部分讲的大模型原理几个必须澄清的概念 Transformer是什么 ◼Transformer是一种特殊的神经网络，几乎现在所有典型大模型都采用这种神经网络 有很多类型voice-to-text, text-to-voice, text-to-image。。。我们主要介绍text-to-texttransformer，是现在主流大模型的基础 输入：text（可能伴随一些图像或声音等），输出：预测下一个token Transformer整体流程速览 Embedding 以特定权重矩阵对各token的原始向量相乘，编码成特定向量 To date, the cleverestthinker of all time was ... Attention ◼注意力机制：计算token之间的关系 每个token的向量之间，以特定权重矩阵交叉相乘，从而计算token之间的互相影响，把影响后的含义编码到乘完之后的token向量中 Attention：多说两句三句话都有mole这个词（鼹鼠、摩尔、痣），如何区分？ ◼Attention会通过矩阵运算把周边词的意思嵌入到mole的向量中，反应其在上下文中的含义 Attention：多说两句如何嵌入上下文含义？ Q（我查）、K（查谁）、V（结果） Attention：多说两句多头注意力（Multi-head Attention, MHA）多个注意力矩阵，各自侧重不同方面，一起把上下文含义嵌入token向量 MLP(Multilayer Perceptron) ◼多层感知机：理解每个token自己的含义 每个token的向量，独立的乘以自己的特定权重矩阵，好比在进一步理解这个token自身的含义，理解后的含义反映到乘完之后的token向量中重复很多很多次Attention和MLP 重复很多很多次Attention和MLP

点击免费查看完整报告

Price target adjustment: U.S. IT hardware - Server OEM: Agent AI drives the next phase of AI infrastructure construction - What does this mean for Dell, HP Enterprise, and SuperMicro?

信息技术伯恩斯坦2026-05-20

Master Data Management: Why You're Doing It Wrong and How to Fix It

信息技术GEP2016-03-18

2025我们该如何看待DeepSeek——what, how, why, and next？

DeepSeek研报总结

What is DeepSeek

How to Use DeepSeek

Why it Works

Next Steps

核心观点

你可能感兴趣

The what, why and how for universities seeking to become truly civic institutions

AI算力跟踪深度：辨析Scale Out与Scale Up——AEC在光铜互联夹缝中挤出市场的What、Why、How

光通信跟踪深度：以太网在AI算力投资中的Why、How与What

Istio Product Security Working Group - What is it and why it’s important Jacob Delgado & Brian Avery

Why It’s Time to Rethink Your Sourcing Strategy: And How Right-Shoring Can Help You Get There

What's Budget to Pay™ and Why You Need It Now: New Finance Capability for Next-Level Budget and Spend Control

Why Supplier Collaboration Is Chaotic and Messy (And How You Can Fix It)

What We’re Focused On and Why It Matters

Price target adjustment: U.S. IT hardware - Server OEM: Agent AI drives the next phase of AI infrastructure construction - What does this mean for Dell, HP Enterprise, and SuperMicro?

Master Data Management: Why You're Doing It Wrong and How to Fix It