您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:DS系列专题:DeepSeek技术溯源及前沿探索 - 发现报告

DS系列专题:DeepSeek技术溯源及前沿探索

信息技术2025-03-24朱强浙江大学测***
AI智能总结
查看更多
DS系列专题:DeepSeek技术溯源及前沿探索

DeepSeek技术溯源及前沿探索 主讲人:朱强 浙江大学计算机科学与技术学院人工智能省部共建协同创新中心(浙江大学)https://person.zju.edu.cn/zhuq Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 LanguageModeling 对于任意的词序列,计算出这个序列是一句话的概率 我们每天都和语言模型打交道: Isawacatinmydream 编码:让计算机理解人类语言 One-hotEncoding有什么缺点吗? One-hotEncoding 编码:让计算机理解人类语言 WordEmbedding 用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义 20维的向量用one-hot和wordembedding的方法分别可以表示多少单词? 编码:让计算机理解人类语言 WordEmbedding 结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料 Abottleoftezgüinoisonthetable.Everyonelikestezgüino.Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn. (1)Abottleof_____isonthetable.(2)Everyonelikes_____.(3)_____makesyoudrunk.(4)Wemake_____outofcorn. 语言模型:技术演化 基于统计的N-gram(1970after) Transformer(2017after) Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老)3-gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠|抓老)2-gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老) 基于神经网络的LSTM/GRU(2000after) Encoder-Decoder 可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer) Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 大型语言模型简史 Transformer:理论架构创新 •自注意力机制:支持并行计算/全局上下文的理解能力•多头注意力:从多个角度捕捉复杂的语义关系•前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性 Transformer:大模型的技术基座 AttentionIsAllYouNeed Encoder NIPS2017,引用量15万+ 引入全新注意力机制,改变了深度学习模型的处理方式 Transformer:(自)注意力机制 在理解语言任务时,Attention机制本质上是捕捉单词间的关系 中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花1 Theanimaldidn'tcrossthestreetbecauseitwastootired/wide3 Transformer:(自)注意力机制 在理解图像任务时,Attention机制本质上是一种图像特征抽取 Transformer:训练机制 大型语言模型简史 预训练时代:大力出奇迹(“暴力美学”) •BERT:BidirectionalEncoderRepresentationsTransformers•GPT:GenerativePertainedTransformer•自监督算法:MLM/NTP/MAE解决海量数据标注问题 自监督学习(语言) MaskedLangaugeModeling(MLM)模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 原话:一辆列车缓慢行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上移除单词:一辆列车行驶在崎岖的山路上 自监督学习(图像) MaskedAutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 训练transformer的通用之力 数据是燃料、模型是引擎、算力是加速器 数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。 模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。 算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。 大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。 群雄(中美)争霸 闭源vs开源 摩尔定律(大模型时代) GPT-2做了以下改进: 12层,每层12个注意头 GPT-3做了以下优化: ChatGPT基于GPT-3.5: 1.增加到48层,使用1600维向量进行词嵌入;2.将层归一化移动到每个子块的输入,并在最终的自注意块后增加一层归一化;3.修改初始化的残差层权重,缩放为原来的1/�,其中,�是残差层的数量;4.特征向量维数从768扩展到1600,词表扩大到50257。 1.增加到96层,每层有96个注意头;2.单词嵌入大小从1600增加到12888;3.上下文窗口大小从GPT-2的1024增加到2048,并采用交替密度和局部带状稀疏注意模式。 1.ChatGPT使用来自人类反馈的强化学习进行训练; 2.通过近端策略优化算法进行微调,为信任域策略优化算法带来成本效益。 DeepSeek通过大幅提升模型训练、推理效率,缓解(???)了算力需求? Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 大型语言模型简史 GPT-3:语言模型的转折点 •大语言模型:1750亿参数•涌现能力:随着模型规模增大而出现的新能力•生成/创造:ArtificialIntelligence(人工=>艺术) 大型语言模型简史 OpenAI技术白皮书 GPT3Initial TrainingoncodeGPT-3InitialGPT-3Initial GPT-3SeriesCodexInitialInstructGPTInitialCode-davinci-001Instruct-davinci-beta初代GPT-3展示了三个重要能力(来自于大规模的预训练) LM+codetrainingtheninstructiontuningCode-cushman-001Text-davinci-001语言生成:来自语言建模的训练目标(说人话)世界知识:来自3000亿单词的训练语料库(百晓生)上下文学习:上下文学习可以泛化,仍然难以溯源(触类旁通) Code-davinci-002初代GPT-3表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力 Codex+Instruct Code-cushman-001Text-davinci-0012020-2021年,OpenAI投入了大量的精力通过代码训练和指令微调来增强GPT-3。 LM+codetrainingtheninstructiontuningCode-davinci-002使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调将GPT-3.5的分化到不同的技能树(数学家/程序员/…) ChatGPT(技术到产品) 大型语言模型简史 多模态模型:连接文本、图像及其他 •开源:Meta的LLaMA系列(普惠学术领域)•GPT-4v:视觉遇见语言(跨模态)•GPT-4o:全模态前沿(交互能力) GPT-4v(听、说看) 2023.06 zero-shot及few-shot的能力 GPT-4逻辑推理能力的飞跃 GPT-4的安全性已经大幅提升 更强的专属能力(如编程) 处理其它语言的能力 处理更长序列的能力 GPT-4o(文科博士生) 2024.06 多模态输入输出(交互能力)响应速度(接近人类响应)数学推理、编程等能力提升非英文文本性能大幅提升视觉和音频理解能力成本优势 GPT-o1(理科博士生) 2024.09 推理能力大幅提升:数学和编程能力爆表 更像人类一样思考:全新安全训练方法&更强的“越狱”抵抗力 Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 大型语言模型简史 推理模型:从「生成」到「推理」的重心转变 •OpenAI-o1/o3:推理能力的一大飞跃•DeepSeek-V3/R1:专家模型、强化学习,开源,效率 DeepSeek技术全景图 DeepSeek模型并非是颠覆性基础理论创新(Transformer-based),其对算法、模型和系统等进行的系统级协同工程创新,打破了大语言模型以大算力为核心的预期天花板,为受限资源下探索通用人工智能开辟了新的道路。 DeepSeek技术揭秘 DS-V3对标GPT-4o(文科博士生): 混合专家模型:V3基座模型总共有6710亿参数,但是每次token仅激活8个专家、370亿参数(~5.5%)。 极致的工程优化:多头潜在注意力机制(MLA),使用FP8混合精度,DualPipe算法提升训练效率,将训练效率优化到极致,显存占用为其他模型的5%-13%。 DeepSeek技术揭秘 赋予DeepSeek-V3最基础的推理能力: R1-Zero使用DeepSeek-V3-Base作为基础模型,直接使用GRPO进行强化学习来提升模型的推理性能: 准确度奖励(Accuracyrewards)格式奖励(Format rewards) DeepSeek技术揭秘 DS-R1对标OpenAI-o1(理科博士生): 阶段1:DeepSeek-R1-Zero生成少量推理数据+SFT=>为V3植入初步推理能力(冷启动)阶段2:根据规则奖励直接进行强化学习(GRPO)训练=>提升推理能力(多轮迭代,获取大量推理数据)阶段3:迭代生成推理/非推理样本微调=>增强全场景能力阶段4:全场景强化学习=>人类偏好对齐(RLHF) DeepSeek技术揭秘 DeepSeek-R1-Distill模型: (1)基于各个低参数量通用模型(千问、Llama等)(2)使用DeepSeek-R1同款数据微调(3)大幅提升低参数量模型性能 知识蒸馏: •老师教学生:“解题思路”,不仅给答案(硬标签),还教“为什么”(软标签)•模型瘦身:大幅压缩参数(如671亿→7亿参数),手机也能跑AI DeepSeek带来的全栈影响 Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 从LLM到Agent 通用LLM 基于LLM的Agent 垂类LLM CodeLlama(2023)MathGLM(2023)LawBench(2023) ChatGPT(2022)LLaMA(2023)Vicuna(2023) HuggingGPT(2023)AutoGPT(2023)JARVIS(2024) 技术架构 大模型开发工具 垂类应用 Agent开发平台 LLMVSCode(2023)DBGPT-Hub(2023)Kore.ai(2023)Uchat(2024) Transformer(2017)Bert/GPT(2018) GPTs(