1 教育教学研究中心 浙江大学人工智 浙江大学人工智能教育教学研究中 浙江大学 浙江大学DS系列专题 浙江大学人工智能教育教学研究中心 DeepSeek技术溯源及前沿探索 主讲人:朱强 江大学人工智能教育教学研究中心 浙江大学计算机科学与技术学院 究中心 人工智能省部共建协同创新中心(浙江大学)https://person.zju.edu.cn/zhuq 一、语言模型 三、ChatGPT 四、DeepSeek 五、新一代智能体 二、Transformer 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 教育教学研究中心 究中心 浙江大学 浙江大学人工智 LanguageModeling 对于任意的词序列,计算出这个序列是一句话的概率 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 我们每天都和语言模型打交道: Isawacat Isawacatonthechair Isawacatrunningafteradog Isawaca car Isawacatinmydream 教育教学研究中心 浙江大学 浙江大学人工智 编码:让计算机理解人类语言 She 1000 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 只有一个1,其余均为0 is 0100 mom 0001 my 0010 One-hotEncoding有什么缺点吗? 究中心 江大学人工智能教育教学研究中心 One-hotEncoding 教育教学研究中心 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 WordEmbedding 用一个低维的词向量表示一个词 能使距离相近的向量对应的物体有相近的含义 游泳 飞翔 鲸鱼 0.99 0.99 0.05 0.1 … 海豚 0.99 0.05 0.93 0.09 … 鹦鹉 0.02 0.01 0.99 0.98 … 企鹅 0.98 0.02 0.94 0.3 … 究中心 江大学人工智能教育教学研究中心 20维的向量用one-hot和wordembedding的方法分别可以表示多少单词? 浙江大学人工智能教育教学研究中 WordEmbedding Abottleoftezgüinoisonthetable.Everyonelikestezgüino. Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn. 结合句子语境我们可以猜测: tezgüino是一种由玉米制作的酒精类饮料 (1)Abottleof isonthetable. tezgüinomotoroil (1)(2)(3)(4) 1 1 1 1 浙江大学人工智能教育教学研究中心 1000 (2)Everyonelikes.两行内容十分相近 (3) makesyoudrunk. tortillas 0101 教育教学研究中心 浙江大学 浙江大学人工智 (4)Wemake outofcorn. wine 1 1 1 0 究中心 江大学人工智能教育教学研究中心 两个单词含义相近 浙江大学人工智能教育教学研究中 基于统计的N-gram(1970after) Transformer(2017after) 教育教学研究中心 究中心 浙江大学 浙江大学人工智 Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老) 2-gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老) 3-gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠|抓老) 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 基于神经网络的LSTM/GRU(2000after) 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 常见的深度学习模型框架,可用于解决Seq2Seq问题 Iamprettysmart! 隐空间 Representation 我很聪明! Decoder Encoder 可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer) 一、语言模型 三、ChatGPT 四、DeepSeek 五、新一代智能体 二、Transformer 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA-3.1 BERT Transformer 浙江大学人工智能教育教学研究中心 GPT-2 GPT-3.5 InstrutGPT GPT-4 GPT-4o 405B OpenAI-o1DeepSeek-V3 OpenAI-o3 GPT-3 ChatGPT DeepSeek-R1 教育教学研究中心 浙江大学 浙江大学人工智 Transformer:理论架构创新 •自注意力机制:支持并行计算/全局上下文的理解能力 •多头注意力:从多个角度捕捉复杂的语义关系 •前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性 究中心 江大学人工智能教育教学研究中心 10 https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146 AttentionIsAllYouNeed NIPS2017,引用量15万+ 引入全新注意力机制,改变了深度学习模型的处理方式 Decoder Encoder 教育教学研究中心 浙江大学人工智能教育教学研究中 究中心 浙江大学人工智能教育教学研究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 在理解语言任务时,Attention机制本质上是捕捉单词间的关系 中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花 1 2 浙江大学人工智能教育教学研究中心 江大学人工智能教育教学研究中心 Sheiseatingagreenapple. 3 究中心 Theanimaldidn'tcrossthestreetbecauseitwastootired/wide 教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 在理解图像任务时,Attention机制本质上是一种图像特征抽取 究中心 江大学人工智能教育教学研究中心 ImageSketchGradient13 Key:书的索引编号 (高效的书籍定位) 教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学 浙江大学人工智 Query:描述要找的书(精准的需求描述) 浙江大学人工智能教育教学研究中 场景:你在图书馆想找一本关于“机器学习基础”的书 Value:内容的抽取 (由目标任务驱动) 究中心 江大学人工智能教育教学研究中心 14 https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 JUN JUN OCT FEB OCT MAY SEPMAR NOV FEBMAR MAR APR DEC JAN 浙江大学人工智能教育教学研究中 GPT T5FLAN LLaMALLaMA-3.1 BERT 浙江大学人工智能教育教学研究中心 GPT-2 GPT-3.5 InstrutGPT GPT-4 GPT-4o 405B OpenAI-o1DeepSeek-V3 OpenAI-o3 Transformers GPT-3 ChatGPT DeepSeek-R1 教育教学研究中心 究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 预训练时代:大力出奇迹(“暴力美学”) •BERT:BidirectionalEncoderRepresentationsTransformers •GPT:GenerativePertainedTransformer •自监督算法:MLM/NTP/MAE解决海量数据标注问题 浙江大学人工智能教育教学研究中 浙江大学人工智能教育教学研究中心 BERT Oct2018 GPT 江大学人工智能教育教学研究中心 Jun2018 教育教学研究中心 究中心 浙江大学 浙江大学人工智 Representatio Generation 浙江大学人工智能教育教学研究中 BERT–2018 DistilBERT–2019RoBERTa–2019 ReDperBeEseRnTtat–io ALBERT–2019ELECTRA–2020 GPT–2018 GPT-2–2019 GPT-3–2020 GPT-Neo–2021 浙江大学人工智能教育教学研究中心 GPT-3.5(ChatGPT)–2022 LLaMA–2023 GPT-4–2023 Generation … T5–2019 BART–2019 mT5–2021 … 教育教学研究中心 浙江大学 浙江大学人工智 江大学人工智能教育教学研究中心 20n20 究中心 … 教育教学研究中心 究中心 浙江大学 江大学人工智能教育教学研究中心 浙江大学人工智 浙江大学人工智能教育教学研究中 MaskedLangaugeModeling(MLM)模型会不断地在句子中‘挖去’一个单词,根 浙江大学人工智能教育教学研究中心 据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 原话:一辆列车缓慢行驶在崎岖的山路上 移除单词:一辆列车行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上 教育教学研究中心 浙江大学 浙江大学人工智 浙江大学人工智能教育教学研究中 MaskedAutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建 浙江大学人工智能教育教学研究中心 缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 遮盖图像 重建图像 究中心 江大学人工智能教育教学研究中心 19 https://arxiv.org/pdf/2111.06377 浙江大学人工智能教育教学研究中 数据是燃料、模型是引擎、算力是加速器 Word2vec词向量 引入 Self-attention Self-supervisedPrompt 人类反馈强化学习 (InstructGPT) CodeX(CoT,120亿参数) 浙江大学人工智能教育教学研究中心 Fine-tune MCP神经元 Perceptron DNN RNN LSTM Transformer 语言大模型LLM ChatGPT 江大学人工智能教育教学研究中心 神经网络早期前向神经网络 seq2seq序列学习循环神经网络 单词之间关联关系 教育教学研究中心 浙江大学 浙江