TheNaturalLanguageProcessingLaboratoryatTianjinUniversity
深度解读DeepSeek:原理与效应
熊德意天津大学dyxiong@tju.edu.cnhttps://dyxiong.github.iohttps://tjunlp-lab.github.io
伏羲传语
报告目录
大语言模型发展路线图
01
DeepSeekV2-V3/R1技术原理
02
DeepSeek效应
03
未来展望
04
生成式AI:2014——2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模
oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成问题求解的过程和答案(推理)
生成式AI:2014——2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模
oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理)
生成式AI:2014——2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模
oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理)
生成式AI:2014——2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模
oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理)
生成式AI:2014——2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模
oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理)
自然语言处理与语言模型
自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力
语言模型:自然语言统计建模,简单说,就是预测句子中的下一个单词是什么
大语言模型:2018——2024
大语言模型:技术栈
o训练范式
扩展法则
大语言模型:后训练范式
推理语言模型?
过程奖励模型PRM
Sasha RushandDaniel Ritter. Speculations on Test-Time Scaling. 2024
报告目录
大语言模型发展路线图
01
DeepSeekV2-V3/R1技术原理
02
DeepSeek效应
03
未来展望
04
DeepSeek:2023——
o模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】o推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】
DeepSeek:技术创新——模型架构|V2
DeepSeekV2主要创新oDeepSeekMoE
oMLA
DeepSeekMoEo稀疏激活:计算不随规模呈线性增长
o相比传统MoE:细粒度专家(共享+路由)o路由&通信改造:▪Device-Limited Routing▪Auxiliary Loss for Load Balance▪Token-Dropping Strategy
MLA:低秩压缩,降低KVcache占用空间
V2规模:236B total parameters, 21B activated parameters, 128K context window
DeepSeek:技术创新——模型架构|V2
DeepSeek:技术创新——模型架构|V3
DeepSeekV3主要创新oInfrastructures
oMulti-TokenPrediction(MTP)
Infrastructures
o减少流水线气泡o高效节点间All-to-All通信oFP8训练o低精度存储与通信
V3规模:671B total parameters,37B activated parameters,trainedon14.8Ttokens
DeepSeek:技术创新——模型架构|V3
DeepSeek:技术创新——模型架构|V3成本
During the pre-training state, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7 days on our own cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completedin lessthan two monthsand costs 2664K GPU hours.大规模高性能加速器
DeepSeek:技术创新——创新程度
DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;
DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率
美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法绕过了美国的算力护城河
DeepSeek:技术创新——推理模型|R1
DeepSeekR1主要创新
oDeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻o推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体o强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本o推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)
为什么MCTS+PRM是“误区”
oThebitterlesson:scalabilityoOpenAI竞争策略
DeepSeek:技术创新——推理模型|R1-Zero
1.强化学习训练规模大业内通常训练几十RLsteps,DeepSeek训练几千RLsteps
Tülu3最大发布模型只训练了~50RLsteps
2.RLTrainingScalingLaw:涌现reflection、aha自动涌现出搜索、反思、顿悟、纠错与testing-timescalinglaw一致,可从性能增长曲线和长度增长曲线推出推理时scalinglaw
3.通过prompt策略引导模型思考和给出答案,避免基座模型不能生成停止符使用标记