您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [天津大学]:2025深度解读DeepSeek原理与效应 - 发现报告

2025深度解读DeepSeek原理与效应

信息技术 2025-02-11 - 天津大学 芥末豆
报告封面

TheNaturalLanguageProcessingLaboratoryatTianjinUniversity 深度解读DeepSeek:原理与效应 熊德意天津大学dyxiong@tju.edu.cnhttps://dyxiong.github.iohttps://tjunlp-lab.github.io 伏羲传语 报告目录 大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 生成式AI:2014——2024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模 oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成问题求解的过程和答案(推理) 生成式AI:2014——2024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模 oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理) 生成式AI:2014——2024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模 oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理) 生成式AI:2014——2024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模 oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理) 生成式AI:2014——2024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)oAttention:数据依存关系建模 oTransformer:数据生成的统一架构oScalingLaws:数据学习、生成的扩展法则oRLHF:生成与人类价值对齐的数据oo1/R1:生成式求解问题——生成复杂问题的答案(推理) 自然语言处理与语言模型 自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力 语言模型:自然语言统计建模,简单说,就是预测句子中的下一个单词是什么 大语言模型:2018——2024 大语言模型:技术栈 o训练范式 扩展法则 大语言模型:后训练范式 推理语言模型? 过程奖励模型PRM Sasha RushandDaniel Ritter. Speculations on Test-Time Scaling. 2024 报告目录 大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 DeepSeek:2023—— o模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】o推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】 DeepSeek:技术创新——模型架构|V2 DeepSeekV2主要创新oDeepSeekMoE oMLA DeepSeekMoEo稀疏激活:计算不随规模呈线性增长 o相比传统MoE:细粒度专家(共享+路由)o路由&通信改造:▪Device-Limited Routing▪Auxiliary Loss for Load Balance▪Token-Dropping Strategy MLA:低秩压缩,降低KVcache占用空间 V2规模:236B total parameters, 21B activated parameters, 128K context window DeepSeek:技术创新——模型架构|V2 DeepSeek:技术创新——模型架构|V3 DeepSeekV3主要创新oInfrastructures oMulti-TokenPrediction(MTP) Infrastructures o减少流水线气泡o高效节点间All-to-All通信oFP8训练o低精度存储与通信 V3规模:671B total parameters,37B activated parameters,trainedon14.8Ttokens DeepSeek:技术创新——模型架构|V3 DeepSeek:技术创新——模型架构|V3成本 During the pre-training state, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7 days on our own cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completedin lessthan two monthsand costs 2664K GPU hours.大规模高性能加速器 DeepSeek:技术创新——创新程度 DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个; DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率 美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法绕过了美国的算力护城河 DeepSeek:技术创新——推理模型|R1 DeepSeekR1主要创新 oDeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻o推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体o强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本o推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应) 为什么MCTS+PRM是“误区” oThebitterlesson:scalabilityoOpenAI竞争策略 DeepSeek:技术创新——推理模型|R1-Zero 1.强化学习训练规模大业内通常训练几十RLsteps,DeepSeek训练几千RLsteps Tülu3最大发布模型只训练了~50RLsteps 2.RLTrainingScalingLaw:涌现reflection、aha自动涌现出搜索、反思、顿悟、纠错与testing-timescalinglaw一致,可从性能增长曲线和长度增长曲线推出推理时scalinglaw 3.通过prompt策略引导模型思考和给出答案,避免基座模型不能生成停止符使用标记 R1-Zero存在问题:poorreadability,languagemixing DeepSeek:技术创新——推理模型|R1Recipe oDeepSeek-R1不是唯一的推理模型框架,2025年将出现更多新的框架o要复现上述框架,需要DeepSeek开源相关数据 DeepSeek:技术创新——推理模型|RL 1.强化学习框架GRPO(DeepSeekMath)采用蒙特卡洛采用估算以取代Value模型,降低 计算和存储开销 2.强化学习奖励模型o采用easilyverifiablerewards •Accuracyreward •Formatreward•Language-consistencyrewardo避免过程奖励模型:计算复杂,容易rewardhacking DeepSeek:技术创新——推理模型|推理能力蒸馏 推理模型蒸馏到小模型oreasoning能力可以蒸馏到小模型 o大模型蒸馏到小模型优于小模型直接通过大规模RL训练o再次验证了模型规模在AGI发展中的重要性o推理者同样需要规模支撑 DeepSeek:技术创新——推理模型|R1 DeepSeek:技术创新——推理模型|R1 TJUNLP实测DeepSeek-R1逻辑推理性能 DeepSeek:技术创新——创新程度 DeepSeekR1是在探明方向(OpenAIo1引领和证实的方向)上进行0-1的创新突破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、过程奖励模型(即Search+PRM)实现推理的“误区”; 贡献: o独立探索出推理技术路线o将技术路线公开发布(解惑了业内的“不知”)o模型开源(MITLicense) DeepSeekR1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇了美国的“AIDominance” 报告目录 大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 DeepSeek:效应 算力价格战 开源vs闭源 认知误区 创新&人才&Vision DeepSeek:效应——开源vs闭源 GPT-3选择闭源之后,大模型开源vs闭源之争、之战一直存在 DeepSeekR1的开源发布,一举赶超闭源大模型,是大模型开源史上的里程碑 美国AI第一梯队企业的前沿技术封闭被打破 开源vs闭源不仅涉及技术的公开性,也关乎AI安全治理 DeepSeek:效应——认知误区 如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了: o美国人对中国AI水平的认知:长久以来,美国认为中国在AI科技创新上更多是跟随者角色o大模型研发成本的认知:大模型研发成本需要数千万乃至上亿美元 DeepSeek:效应——创新&人才&Vision 《关于Sora、国内大模型及通用人工智能趋势》《认识大模型》(载于学习时报) DeepSeek:效应——创新&人才&Vision DeepSeekV3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此; 技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈; 来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现“人工智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未探明方向上的0-1创新; 报告目录 大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 De