您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:DS系列专题:DeepSeek技术溯源及前沿探索 - 发现报告
当前位置:首页/行业研究/报告详情/

DS系列专题:DeepSeek技术溯源及前沿探索

信息技术2025-03-24朱强浙江大学测***
DS系列专题:DeepSeek技术溯源及前沿探索

1 教育教学研究中心 浙江大学人工智 浙江大学人工智能教育教学研究中 浙江大学 浙江大学DS系列专题 浙江大学人工智能教育教学研究中心 DeepSeek技术溯源及前沿探索 主讲人:朱强 江大学人工智能教育教学研究中心 浙江大学计算机科学与技术学院 究中心 人工智能省部共建协同创新中心(浙江大学)httpspersonzjueducnzhuq 一、语言模型 三、ChatGPT 四、DeepSeek 五、新一代智能体 二、Transformer 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 教育教学研究中心 究中心 浙江大学 浙江大学人工智 LanguageModeling 对于任意的词序列,计算出这个序列是一句话的概率 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 我们每天都和语言模型打交道: Isawacat Isawacatonthechair Isawacatrunningafteradog Isawaca car Isawacatinmydream 教育教学研究中心 浙江大学 浙江大学人工智 编码:让计算机理解人类语言 She 1000 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 只有一个1,其余均为0 is 0100 mom 0001 my 0010 OnehotEncoding有什么缺点吗? 究中心 江大学人工智能教育教学研究中心 OnehotEncoding 教育教学研究中心 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 WordEmbedding 用一个低维的词向量表示一个词 能使距离相近的向量对应的物体有相近的含义 游泳 飞翔 鲸鱼 099 099 005 01 海豚 099 005 093 009 鹦鹉 002 001 099 098 企鹅 098 002 094 03 究中心 江大学人工智能教育教学研究中心 20维的向量用onehot和wordembedding的方法分别可以表示多少单词? 浙江大学人工智能教育教学研究中 WordEmbedding AbottleoftezginoisonthetableEveryonelikestezgino TezginomakesyoudrunkWemaketezginooutofcorn 结合句子语境我们可以猜测: tezgino是一种由玉米制作的酒精类饮料 1Abottleof isonthetable tezginomotoroil 1234 1 1 1 1 浙江大学人工智能教育教学研究中心 1000 2Everyonelikes两行内容十分相近 3 makesyoudrunk tortillas 0101 教育教学研究中心 浙江大学 浙江大学人工智 4Wemake outofcorn wine 1 1 1 0 究中心 江大学人工智能教育教学研究中心 两个单词含义相近 浙江大学人工智能教育教学研究中 基于统计的Ngram(1970after) Transformer2017after 教育教学研究中心 究中心 浙江大学 浙江大学人工智 Before:P小P猫小P抓小猫P老小猫抓P鼠小猫抓老 2gram:P小P猫小P抓猫P老抓P鼠老 3gram:P小P猫小P抓小猫P老猫抓P鼠抓老 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 基于神经网络的LSTMGRU2000after 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 常见的深度学习模型框架,可用于解决Seq2Seq问题 Iamprettysmart 隐空间 Representation 我很聪明 Decoder Encoder 可以根据任务选择不同的编码器和解码器(LSTMGRUTransformer) 一、语言模型 三、ChatGPT 四、DeepSeek 五、新一代智能体 二、Transformer 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA31 BERT Transformer 浙江大学人工智能教育教学研究中心 GPT2 GPT35 InstrutGPT GPT4 GPT4o 405B OpenAIo1DeepSeekV3 OpenAIo3 GPT3 ChatGPT DeepSeekR1 教育教学研究中心 浙江大学 浙江大学人工智 Transformer:理论架构创新 自注意力机制:支持并行计算全局上下文的理解能力 多头注意力:从多个角度捕捉复杂的语义关系 前馈网络位置编码层归一化:解决了传统模型的诸多局限性 究中心 江大学人工智能教育教学研究中心 10 httpsblogcsdnnetcf2SudS8x8F0varticledetails145695146 AttentionIsAllYouNeed NIPS2017,引用量15万 引入全新注意力机制,改变了深度学习模型的处理方式 Decoder Encoder 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 在理解语言任务时,Attention机制本质上是捕捉单词间的关系 中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花 1 2 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 Sheiseatingagreenapple 3 究中心 Theanimaldidntcrossthestreetbecauseitwastootiredwide 教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 在理解图像任务时,Attention机制本质上是一种图像特征抽取 究中心 江大学人工智能教育教学研究中心 ImageSketchGradient13 Key:书的索引编号 (高效的书籍定位) 教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 Query:描述要找的书(精准的需求描述) 浙江大学人工智能教育教学研究中 场景:你在图书馆想找一本关于“机器学习基础”的书 Value:内容的抽取 (由目标任务驱动) 究中心 江大学人工智能教育教学研究中心 14 httpsnewslettertheaiedgeiopthemultiheadattentionmechanism 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA31 BERT 浙江大学人工智能教育教学研究中心 GPT2 GPT35 InstrutGPT GPT4 GPT4o 405B OpenAIo1DeepSeekV3 OpenAIo3 Transformers GPT3 ChatGPT DeepSeekR1 教育教学研究中心 究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 预训练时代:大力出奇迹(“暴力美学”) BERT:BidirectionalEncoderRepresentationsTransformers GPTGenerativePertainedTransformer 自监督算法:MLMNTPMAE解决海量数据标注问题 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 BERT Oct2018 GPT 江大学人工智能教育教学研究中心 Jun2018 教育教学研究中心 究中心 浙江大学 浙江大学人工智 Representatio Generation 浙江大学人工智能教育教学研究中 BERT2018 DistilBERT2019RoBERTa2019 ReDperBeEseRnTtatio ALBERT2019ELECTRA2020 GPT2018 GPT22019 GPT32020 GPTNeo2021 浙江大学人工智能教育教学研究中心 GPT35ChatGPT2022 LLaMA2023 GPT42023 Generation T52019 BART2019 mT52021 教育教学研究中心 浙江大学 浙江大学人工智 江大学人工智能教育教学研究中心 20n20 究中心 教育教学研究中心 究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 浙江大学人工智能教育教学研究中 MaskedLangaugeModeling(MLM)模型会不断地在句子中‘挖去’一个单词,根 浙江大学人工智能教育教学研究中心 据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 原话:一辆列车缓慢行驶在崎岖的山路上 移除单词:一辆列车行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 MaskedAutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建 浙江大学人工智能教育教学研究中心 缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 遮盖图像 重建图像 究中心 江大学人工智能教育教学研究中心 19 httpsarxivorgpdf211106377 浙江大学人工智能教育教学研究中 数据是燃料、模型是引擎、算力是加速器 Word2vec词向量 引入 Selfattention SelfsupervisedPrompt 人类反馈强化学习 (InstructGPT) CodeX(CoT120亿参数) 浙江大学人工智能教育教学研究中心 Finetune MCP神经元 Perceptron DNN RNN LSTM Transformer 语言大模型LLM ChatGPT 江大学人工智能教育教学研究中心 神经网络早期前向神经网络 seq2seq序列学习循环神经网络 单词之间关联关系 教育教学研究中心 浙江大学 浙江大学人工智 数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。 模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。 算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。 大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。 究中心 20 浙江大学人工智能教育教学研究中 大语言