您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:DeepSeek技术溯源及前沿探索报告 - 发现报告

DeepSeek技术溯源及前沿探索报告

AI智能总结
查看更多
DeepSeek技术溯源及前沿探索报告

Outline 一、语言模型三、ChatGPT四、DeepSeek五、新一代智能体二、Transformer LanguageModeling对于任意的词序列,计算出这个序列是一句话的概率我们每天都和语言模型打交道:IsawacatonthechairIsawacatrunningafteraIsawacatinmydreamIsawacacar Sheismymom10010000语言模型:基本任务 00001001One-hotEncoding只有一个1,其余均为0One-hotEncoding有什么缺点吗?编码:让计算机理解人类语言 0.990.990.990.050.020.010.980.02鲸鱼海豚鹦鹉企鹅游泳WordEmbedding用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义20维的向量用one-hot和wordembedding的方法分别可以表示多少单词?编码:让计算机理解人类语言 0.050.10.930.090.990.980.940.3飞翔 ………… WordEmbeddingAbottleoftezgüinoisonthetable.Everyonelikestezgüino.Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn.(1)Abottleof_____isonthetable.(2)Everyonelikes_____.(3)_____makesyoudrunk.(4)Wemake_____outofcorn.编码:让计算机理解人类语言 结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料(1)(2)(3)(4)1101tezgüinomotoroiltortillaswine 111000101110 基于统计的N-gram(1970after)语言模型:技术演化Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老)3-gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠|抓老)2-gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老)基于神经网络的LSTM/GRU(2000after) Transformer(2017after) 常见的深度学习模型框架,可用于解决Seq2Seq问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)Encoder我很聪明!Encoder-Decoder Outline 一、语言模型三、ChatGPT四、DeepSeek五、新一代智能体二、Transformer Transformer:理论架构创新•自注意力机制:支持并行计算/全局上下文的理解能力•多头注意力:从多个角度捕捉复杂的语义关系•前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性大型语言模型简史2017JUN1958Transformer2018JUNGPT2018OCTBERT2019FEBGPT-2https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146 NIPS2017,引用量15万+引入全新注意力机制,改变了深度学习模型的处理方式Transformer:大模型的技术基座AttentionIsAllYouNeed Encoder Transformer:(自)注意力机制在理解语言任务时,Attention机制本质上是捕捉单词间的关系Theanimaldidn'tcrossthestreetbecauseSheiseatingagreen apple.中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花123 itwastootired/wide Transformer:(自)注意力机制ImageSketch在理解图像任务时,Attention机制本质上是一种图像特征抽取 Transformer:训练机制场景:你在图书馆想找一本关于“机器学习基础”的书https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism Query:描述要找的书(精准的需求描述)Key:书的索引编号(高效的书籍定位)Value:内容的抽取(由目标任务驱动) 大型语言模型简史预训练时代:大力出奇迹(“暴力美学”)•BERT:BidirectionalEncoderRepresentationsTransformers•GPT:GenerativePertainedTransformer•自监督算法:MLM/NTP/MAE解决海量数据标注问题2017JUN1958Transformers2018JUNGPT2018OCTBERT2019FEBGPT-2 BERT–2018DistilBERT–2019RoBERTa–2019ALBERT–2019ELECTRA–2020DeBERTa–2020…RepresentationT5–2019BART–2019mT5–2021…TheLLMEra–ParadigmShiftinMachineLearning 自监督学习(语言)原话:一辆列车缓慢行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上移除单词:一辆列车MaskedLangaugeModeling(MLM)据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 行驶在崎岖的山路上模型会不断地在句子中‘挖去’一个单词,根 自监督学习(图像)MaskedAutoEncoders(MAE)缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。遮盖图像https://arxiv.org/pdf/2111.06377 通过随机遮盖部分输入数据(如图像)并重建重建图像 数据是燃料、模型是引擎、算力是加速器数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。MCP神经元PerceptronDNN神经网络早期前向神经网络seq2seq序列学习循环神经网络RNNLSTMWord2vec词向量单词之间关联关系Transformer引入Self-attention训练transformer的通用之力 Self-supervisedPromptFine-tune语言大模型LLM 大模型LargeModel机理技术产品大模型脉络 群雄(中美)争霸OpenAI最新15页报告:DeepSeek缩小中美AI差距 12层,每层12个注意头GPT-2做了以下改进:1.增加到48层,使用1600维向量进行词嵌入;2.将层归一化移动到每个子块的输入,并在最终的自注意块后增加一层归一化;3.修改初始化的残差层权重,缩放为原来的1/�,其中,�是残差层的数量;4.特征向量维数从768扩展到1600,词表扩大到50257。模型GPT-1GPT-2GPT-3ChatGPT摩尔定律(大模型时代)DeepSeek通过大幅提升模型训练、推理效率,缓解(???)了算力需求? GPT-3做了以下优化:1.增加到96层,每层有96个注意头;2.单词嵌入大小从1600增加到12888;3.上下文窗口大小从GPT-2的1024增加到2048,并采用交替密度和局部带状稀疏注意模式。参数量1.17亿15亿1750亿千亿级? 发布时间2018年6月2019年2月2020年5月2022年11月 ChatGPT基于GPT-3.5:1.ChatGPT使用来自人类反馈的强化学习进行训练;2.通过近端策略优化算法进行微调,为信任域策略优化算法带来成本效益。预训练数据量约5GB40G45TB百T级? Outline 一、语言模型三、ChatGPT四、DeepSeek五、新一代智能体二、Transformer 大型语言模型简史GPT-3:语言模型的转折点•大语言模型:1750亿参数•涌现能力:随着模型规模增大而出现的新能力•生成/创造:ArtificialIntelligence(人工=>艺术)2017JUN1958Transformers2018JUNGPT2018OCTBERT2019FEBGPT-2 大型语言模型简史2017JUN1958Transformers2018JUNGPT2018OCTBERT2019FEBGPT-2 OpenAI技术白皮书GPT-3SeriesGPT-3.5SeriesTrainingoncodeCode-davinci-001Code-cushman-001 GPT-3SeriesGPT-3.5Series初代GPT-3展示了三个重要能力(来自于大规模的预训练)语言生成:来自语言建模的训练目标(说人话)世界知识:来自3000亿单词的训练语料库(百晓生)上下文学习:上下文学习可以泛化,仍然难以溯源(触类旁通)初代GPT-3表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力GPT3Initial TrainingoncodeCodexInitialGPT-3InitialLM+codetrainingtheninstructiontuningCode-davinci-001Code-cushman-001Code-davinci-002Text-davinci-002Text-davinci-003DavinciGPT-3Initial InstructGPTInitialRLHFRLHFInstruct-davinci-betaText-davinci-001ChatGPT GPT-3SeriesGPT-3.5SeriesTrainingoncodeCode-davinci-001Code-cushman-0012020-2021年,OpenAI投入了大量的精力通过代码训练和指令微调来增强GPT-3。使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调将GPT-3.5的分化到不同的技能树(数学家/程序员/…)Codex+Instruct GPT-3SeriesGPT-3.5SeriesTrainingoncodeCodexInitialCode-davinci-001Code-cushman-001Text-davinci-003RLHFRLHF(基于人类反馈的强化学习的指令微调)触发的能力:翔实的回应公正的回应拒绝不当问题拒绝其知识范围之外的问题ChatGPT(技术到产品) 大型语言模型简史2017JUN1958Transformers2018JUNGPT2018OCTBERT2019FEBGPT-2 多模态模型:连接文本、图像及其他•开源:Meta的LLaMA系列(普惠学术领域)•GPT-4v:视觉遇见语言(跨模态)•GPT-4o:全模态前沿(交互能力) GPT-4v(听、说看) 2023.06 GPT-4可提供多模态能力zero-shot及few-shot的能力GPT-4逻辑推理能力的飞跃GPT-4的安全性已经大幅提升更强的专属能力(如编程)处理其它语言的能力处理更长序列的能力 GPT-4o(文科博士生) 2024.06 多模态输入输出(交互能力)响应速度(接近人类响应)数学推理、编程等能力提升非英文文本性能大幅提升视觉和音频理解能力成本优势 推理能力大幅提升:数学和编程能力爆表更像人类一样思考:全新安全训练方法&更强的“越狱”抵抗力GP