行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

DS系列专题：DeepSeek技术溯源及前沿探索

信息技术2025-03-23朱强浙江大学测***

AI智能总结

一、语言模型

语言模型的目标是计算任意词序列的概率，使其能够理解人类语言。早期方法包括One-hot Encoding和Word Embedding，分别通过独热编码和词向量表示词语，使计算机能够理解词语的语义关系。语言模型的技术演化经历了基于统计的N-gram、循环神经网络（RNN、LSTM、GRU）和基于神经网络的Transformer等阶段。

二、Transformer

Transformer模型引入了自注意力机制，支持并行计算和全局上下文理解，并通过多头注意力机制从多个角度捕捉复杂的语义关系。Transformer模型的技术架构包括自注意力机制、多头注意力、前馈网络、位置编码和层归一化等。大型语言模型的简史表明，自监督学习算法（如MLM/NTP/MAE）解决了海量数据标注问题，而预训练时代的大模型（如BERT、GPT）通过大规模数据训练和模型优化，实现了语言生成、世界知识和上下文学习等能力。

三、大型语言模型简史

大型语言模型的简史表明，GPT-3展示了强大的涌现能力，而ChatGPT则标志着人工智能的IPHONE时刻。OpenAI通过代码训练和指令微调增强了GPT-3的能力，而ChatGPT则通过人类反馈的强化学习（RLHF）实现了与人类对齐。多模态模型（如GPT-4v、GPT-4o）则实现了文本、图像和其他模态的连接，而推理模型（如OpenAI-o1/o3、DeepSeek-V3/R1）则实现了从生成到推理的重心转变。

四、DeepSeek

DeepSeek模型并非颠覆性基础理论创新，而是通过系统级协同工程创新，打破了大语言模型以大算力为核心的预期天花板。DeepSeek-V3通过动态路由机制和专家共享机制，实现了高效推理，而DeepSeek-R1则通过基于规则奖励的强化学习和模型蒸馏，进一步提升了推理能力。DeepSeek-R1-Distill模型则通过知识蒸馏，大幅提升了低参数量模型的性能。

五、新一代智能体

新一代智能体是Agent和LLM的结合，其核心能力是逻辑推理。新一代智能体包括规划技能、工具使用、记忆和行动等能力，能够实现时空智能的自主化服务。Deepseek从LLM到Agent的发展，展示了其在多个领域的应用潜力。

1 教育教学研究中心浙江大学人工智浙江大学人工智能教育教学研究中浙江大学浙江大学DS系列专题浙江大学人工智能教育教学研究中心 DeepSeek技术溯源及前沿探索主讲人：朱强江大学人工智能教育教学研究中心浙江大学计算机科学与技术学院究中心人工智能省部共建协同创新中心（浙江大学）https://person.zju.edu.cn/zhuq 一、语言模型三、ChatGPT 四、DeepSeek 五、新一代智能体二、Transformer 教育教学研究中心浙江大学人工智能教育教学研究中究中心浙江大学人工智能教育教学研究中心浙江大学江大学人工智能教育教学研究中心浙江大学人工智教育教学研究中心究中心浙江大学浙江大学人工智 LanguageModeling 对于任意的词序列，计算出这个序列是一句话的概率浙江大学人工智能教育教学研究中浙江大学人工智能教育教学研究中心江大学人工智能教育教学研究中心我们每天都和语言模型打交道： Isawacat Isawacatonthechair Isawacatrunningafteradog Isawaca car Isawacatinmydream 教育教学研究中心浙江大学浙江大学人工智编码：让计算机理解人类语言 She 1000 浙江大学人工智能教育教学研究中浙江大学人工智能教育教学研究中心只有一个1，其余均为0 is 0100 mom 0001 my 0010 One-hotEncoding有什么缺点吗？究中心江大学人工智能教育教学研究中心 One-hotEncoding 教育教学研究中心浙江大学人工智能教育教学研究中浙江大学人工智能教育教学研究中心浙江大学浙江大学人工智 WordEmbedding 用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义游泳飞翔鲸鱼 0.99 0.99 0.05 0.1 … 海豚 0.99 0.05 0.93 0.09 … 鹦鹉 0.02 0.01 0.99 0.98 … 企鹅 0.98 0.02 0.94 0.3 … 究中心江大学人工智能教育教学研究中心 20维的向量用one-hot和wordembedding的方法分别可以表示多少单词？浙江大学人工智能教育教学研究中 WordEmbedding Abottleoftezgüinoisonthetable.Everyonelikestezgüino. Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn. 结合句子语境我们可以猜测： tezgüino是一种由玉米制作的酒精类饮料 (1)Abottleof isonthetable. tezgüinomotoroil (1)(2)(3)(4) 1 1 1 1 浙江大学人工智能教育教学研究中心 1000 (2)Everyonelikes.两行内容十分相近 (3) makesyoudrunk. tortillas 0101 教育教学研究中心浙江大学浙江大学人工智 (4)Wemake outofcorn. wine 1 1 1 0 究中心江大学人工智能教育教学研究中心两个单词含义相近浙江大学人工智能教育教学研究中基于统计的N-gram（1970after） Transformer(2017after) 教育教学研究中心究中心浙江大学浙江大学人工智 Before：P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老) 2-gram：P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老) 3-gram：P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠|抓老) 浙江大学人工智能教育教学研究中心江大学人工智能教育教学研究中心基于神经网络的LSTM/GRU(2000after) 教育教学研究中心浙江大学浙江大学人工智浙江大学人工智能教育教学研究中究中心浙江大学人工智能教育教学研究中心江大学人工智能教育教学研究中心常见的深度学习模型框架，可用于解决Seq2Seq问题 Iamprettysmart! 隐空间 Representation 我很聪明! Decoder Encoder 可以根据任务选择不同的编码器和解码器（LSTM/GRU/Transformer）一、语言模型三、ChatGPT 四、DeepSeek 五、新一代智能体二、Transformer 教育教学研究中心浙江大学人工智能教育教学研究中究中心浙江大学人工智能教育教学研究中心浙江大学江大学人工智能教育教学研究中心浙江大学人工智 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA-3.1 BERT Transformer 浙江大学人工智能教育教学研究中心 GPT-2 GPT-3.5 InstrutGPT GPT-4 GPT-4o 405B OpenAI-o1DeepSeek-V3 OpenAI-o3 GPT-3 ChatGPT DeepSeek-R1 教育教学研究中心浙江大学浙江大学人工智 Transformer：理论架构创新 •自注意力机制：支持并行计算/全局上下文的理解能力 •多头注意力：从多个角度捕捉复杂的语义关系 •前馈网络/位置编码/层归一化：解决了传统模型的诸多局限性究中心江大学人工智能教育教学研究中心 10 https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146 AttentionIsAllYouNeed NIPS2017，引用量15万+ 引入全新注意力机制，改变了深度学习模型的处理方式 Decoder Encoder 教育教学研究中心浙江大学人工智能教育教学研究中究中心浙江大学人工智能教育教学研究中心浙江大学江大学人工智能教育教学研究中心浙江大学人工智教育教学研究中心浙江大学浙江大学人工智浙江大学人工智能教育教学研究中在理解语言任务时，Attention机制本质上是捕捉单词间的关系中国南北饮食文化存在差异，豆花有南甜北咸之分。南方人一般喜欢吃甜豆花 1 2 浙江大学人工智能教育教学研究中心江大学人工智能教育教学研究中心 Sheiseatingagreenapple. 3 究中心 Theanimaldidn'tcrossthestreetbecauseitwastootired/wide 教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学浙江大学人工智浙江大学人工智能教育教学研究中在理解图像任务时，Attention机制本质上是一种图像特征抽取究中心江大学人工智能教育教学研究中心 ImageSketchGradient13 Key：书的索引编号（高效的书籍定位）教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学浙江大学人工智 Query：描述要找的书（精准的需求描述）浙江大学人工智能教育教学研究中场景：你在图书馆想找一本关于“机器学习基础”的书 Value：内容的抽取（由目标任务驱动）究中心江大学人工智能教育教学研究中心 14 https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA-3.1 BERT 浙江大学人工智能教育教学研究中心 GPT-2 GPT-3.5 InstrutGPT GPT-4 GPT-4o 405B OpenAI-o1DeepSeek-V3 OpenAI-o3 Transformers GPT-3 ChatGPT DeepSeek-R1 教育教学研究中心究中心浙江大学江大学人工智能教育教学研究中心浙江大学人工智预训练时代：大力出奇迹（“暴力美学”） •BERT：BidirectionalEncoderRepresentationsTransformers •GPT:GenerativePertainedTransformer •自监督算法：MLM/NTP/MAE解决海量数据标注问题浙江大学人工智能教育教学研究中浙江大学人工智能教育教学研究中心 BERT Oct2018 GPT 江大学人工智能教育教学研究中心 Jun2018 教育教学研究中心究中心浙江大学浙江大学人工智 Representatio Generation 浙江大学人工智能教育教学研究中 BERT–2018 DistilBERT–2019RoBERTa–2019 ReDperBeEseRnTtat–io ALBERT–2019ELECTRA–2020 GPT–2018 GPT-2–2019 GPT-3–2020 GPT-Neo–2021 浙江大学人工智能教育教学研究中心 GPT-3.5(ChatGPT)–2022 LLaMA–2023 GPT-4–2023 Generation … T5–2019 BART–2019 mT5–2021 … 教育教学研究中心浙江大学浙江大学人工智江大学人工智能教育教学研究中心 20n20 究中心 … 教育教学研究中心究中心浙江大学江大学人工智能教育教学研究中心浙江大学人工智浙江大学人工智能教育教学研究中 MaskedLangaugeModeling（MLM）模型会不断地在句子中‘挖去’一个单词，根浙江大学人工智能教育教学研究中心据剩下单词的上下文来填空，即预测最合适的‘填空词’出现的概率，这一过程为‘自监督学习’ 原话：一辆列车缓慢行驶在崎岖的山路上移除单词：一辆列车行驶在崎岖的山路上预测填空：一辆列车缓慢行驶在崎岖的山路上教育教学研究中心浙江大学浙江大学人工智浙江大学人工智能教育教学研究中 MaskedAutoEncoders（MAE）通过随机遮盖部分输入数据（如图像）并重建浙江大学人工智能教育教学研究中心缺失内容，让模型从上下文中学到图像的深层特征，常用于计算机视觉任务。遮盖图像重建图像究中心江大学人工智能教育教学研究中心 19 https://arxiv.org/pdf/2111.06377 浙江大学人工智能教育教学研究中数据是燃料、模型是引擎、算力是加速器 Word2vec词向量引入 Self-attention Self-supervisedPrompt 人类反馈强化学习（InstructGPT） CodeX（CoT,120亿参数）浙江大学人工智能教育教学研究中心 Fine-tune MCP神经元 Perceptron DNN RNN LSTM Transformer 语言大模型LLM ChatGPT 江大学人工智能教育教学研究中心神经网络早期前向神经网络 seq2seq序列学习循环神经网络单词之间关联关系教育教学研究中心浙江大学浙江

点击免费查看完整报告