行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2025深度解读DeepSeek原理与效应

信息技术 2025-02-11 - 天津大学芥末豆

大语言模型发展路线图

生成式AI自2014年以来经历了快速发展，关键技术包括Attention、Transformer、Scaling Laws、RLHF和o1/R1等，经历了多次AI寒冬和复兴周期。

自然语言处理与语言模型

自然语言处理旨在使计算机具备人类语言能力，语言模型则是通过统计方法预测句子中的下一个单词。大语言模型自2018年以来快速发展，涉及算力管理、数据处理、通用模型和行业模型等多个方面。

大语言模型：生命周期与范式

大语言模型的生命周期包括数据处理、预训练、后训练和应用部署等阶段。后训练范式成本较低，推理语言模型成为研究热点。扩展法则是大语言模型性能提升的关键。

DeepSeek：技术创新

DeepSeekV2-V3/R1在模型架构上进行了多项创新，包括DeepSeekMoE、MLA、Infrastructures和Multi-TokenPrediction等，显著降低了训练和推理成本。DeepSeekR1通过大规模强化学习训练，发现了RL训练的Scaling Laws，并提出了推理模型训练技术框架和强化学习训练框架，实现了推理能力蒸馏。

DeepSeek：效应

DeepSeek的开源发布推动了算力价格战，打破了美国AI第一梯队企业的技术护城河。DeepSeek的成功也改变了美国对中国AI水平的认知，并降低了大模型研发成本的认知。

DeepSeek：创新&人才&Vision

DeepSeek的成功得益于技术型人才的锐意创新和战略型人才的远见卓识。DeepSeekV3和R1的创新属于探明技术方向上的0-1创新，为AGI发展提供了重要参考。

未来展望

未来AGI/ASI可能还需要3-5个重大突破。DeepSeekR2可能很快发布，未来将聚焦于更多领域RL训练。AI reasoning+research将成为科研人员的重要机会。推理+安全将是未来需要突破的方向。

TheNaturalLanguageProcessingLaboratoryatTianjinUniversity 深度解读DeepSeek：原理与效应熊德意天津大学dyxiong@tju.edu.cnhttps://dyxiong.github.iohttps://tjunlp-lab.github.io 伏羲传语报告目录大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 生成式AI：2014——2024 生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）oAttention：数据依存关系建模 oTransformer：数据生成的统一架构oScalingLaws：数据学习、生成的扩展法则oRLHF：生成与人类价值对齐的数据oo1/R1：生成式求解问题——生成问题求解的过程和答案（推理）生成式AI：2014——2024 生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）oAttention：数据依存关系建模 oTransformer：数据生成的统一架构oScalingLaws：数据学习、生成的扩展法则oRLHF：生成与人类价值对齐的数据oo1/R1：生成式求解问题——生成复杂问题的答案（推理）生成式AI：2014——2024 生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）oAttention：数据依存关系建模 oTransformer：数据生成的统一架构oScalingLaws：数据学习、生成的扩展法则oRLHF：生成与人类价值对齐的数据oo1/R1：生成式求解问题——生成复杂问题的答案（推理）生成式AI：2014——2024 生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）oAttention：数据依存关系建模 oTransformer：数据生成的统一架构oScalingLaws：数据学习、生成的扩展法则oRLHF：生成与人类价值对齐的数据oo1/R1：生成式求解问题——生成复杂问题的答案（推理）生成式AI：2014——2024 生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）oAttention：数据依存关系建模 oTransformer：数据生成的统一架构oScalingLaws：数据学习、生成的扩展法则oRLHF：生成与人类价值对齐的数据oo1/R1：生成式求解问题——生成复杂问题的答案（推理）自然语言处理与语言模型自然语言处理：人类语言的智能化处理与分析，使计算机具备听、说、读、写、译等人所具备的语言能力语言模型：自然语言统计建模，简单说，就是预测句子中的下一个单词是什么大语言模型：2018——2024 大语言模型：技术栈 o训练范式扩展法则大语言模型：后训练范式推理语言模型？过程奖励模型PRM Sasha RushandDaniel Ritter. Speculations on Test-Time Scaling. 2024 报告目录大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 DeepSeek：2023—— o模型架构：大部分企业采用已验证架构（试错成本高昂）【不敢】o推理模型：大部分实验室仍在苦苦猜测摸索Q*/o1（OpenAI保密）【不知】 DeepSeek：技术创新——模型架构|V2 DeepSeekV2主要创新oDeepSeekMoE oMLA DeepSeekMoEo稀疏激活：计算不随规模呈线性增长 o相比传统MoE：细粒度专家（共享+路由）o路由&通信改造：▪Device-Limited Routing▪Auxiliary Loss for Load Balance▪Token-Dropping Strategy MLA：低秩压缩，降低KVcache占用空间 V2规模：236B total parameters, 21B activated parameters, 128K context window DeepSeek：技术创新——模型架构|V2 DeepSeek：技术创新——模型架构|V3 DeepSeekV3主要创新oInfrastructures oMulti-TokenPrediction(MTP) Infrastructures o减少流水线气泡o高效节点间All-to-All通信oFP8训练o低精度存储与通信 V3规模：671B total parameters,37B activated parameters,trainedon14.8Ttokens DeepSeek：技术创新——模型架构|V3 DeepSeek：技术创新——模型架构|V3成本 During the pre-training state, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7 days on our own cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completedin lessthan two monthsand costs 2664K GPU hours.大规模高性能加速器 DeepSeek：技术创新——创新程度 DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型，并进行和积累了大量技术创新，包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等，这些技术并不是所有都是原始创新，但是能够进行如此多大模型架构底层创新的实验室，在全世界可能也只有少数几个； DeepSeek所有模型架构上的创新均是围绕“降本增效”：在基本不损害性能前提下，尽可能通过算法挖掘和提升硬件训练和解码效率美国采取芯片禁令（全球三级管控）策略维持自己的AI领导地位，DeepSeek算法绕过了美国的算力护城河 DeepSeek：技术创新——推理模型|R1 DeepSeekR1主要创新 oDeepSeek-R1-Zero：大规模RL训练，发现了RL训练的ScalingLaws，RL训练涌现“aha”时刻o推理模型训练技术框架：4步法，有效解决了R1-Zero存在问题，将推理与对齐合为一体o强化学习训练框架：GRPO，来自DeepSeekMath，降低了强化学习训练成本o推理模型蒸馏：将大模型推理能力蒸馏到小模型，优于小模型直接进行推理训练（规模效应）为什么MCTS+PRM是“误区” oThebitterlesson:scalabilityoOpenAI竞争策略 DeepSeek：技术创新——推理模型|R1-Zero 1.强化学习训练规模大业内通常训练几十RLsteps，DeepSeek训练几千RLsteps Tülu3最大发布模型只训练了~50RLsteps 2.RLTrainingScalingLaw：涌现reflection、aha自动涌现出搜索、反思、顿悟、纠错与testing-timescalinglaw一致，可从性能增长曲线和长度增长曲线推出推理时scalinglaw 3.通过prompt策略引导模型思考和给出答案，避免基座模型不能生成停止符使用标记 R1-Zero存在问题：poorreadability,languagemixing DeepSeek：技术创新——推理模型|R1Recipe oDeepSeek-R1不是唯一的推理模型框架，2025年将出现更多新的框架o要复现上述框架，需要DeepSeek开源相关数据 DeepSeek：技术创新——推理模型|RL 1.强化学习框架GRPO（DeepSeekMath）采用蒙特卡洛采用估算以取代Value模型，降低计算和存储开销 2.强化学习奖励模型o采用easilyverifiablerewards •Accuracyreward •Formatreward•Language-consistencyrewardo避免过程奖励模型：计算复杂，容易rewardhacking DeepSeek：技术创新——推理模型|推理能力蒸馏推理模型蒸馏到小模型oreasoning能力可以蒸馏到小模型 o大模型蒸馏到小模型优于小模型直接通过大规模RL训练o再次验证了模型规模在AGI发展中的重要性o推理者同样需要规模支撑 DeepSeek：技术创新——推理模型|R1 DeepSeek：技术创新——推理模型|R1 TJUNLP实测DeepSeek-R1逻辑推理性能 DeepSeek：技术创新——创新程度 DeepSeekR1是在探明方向（OpenAIo1引领和证实的方向）上进行0-1的创新突破，独立探索出基于大规模强化学习的大语言模型推理技术路线，避开了过去一年多（自OpenAI的Q*在社交媒体讨论）业内广泛思索的通过在训练中进行显式搜索、过程奖励模型（即Search+PRM）实现推理的“误区”；贡献： o独立探索出推理技术路线o将技术路线公开发布（解惑了业内的“不知”）o模型开源（MITLicense） DeepSeekR1打破了美国第一梯队企业以闭源形成的技术护城河，进一步动摇了美国的“AIDominance” 报告目录大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 DeepSeek效应 03 未来展望 04 DeepSeek：效应算力价格战开源vs闭源认知误区创新&人才&Vision DeepSeek：效应——开源vs闭源 GPT-3选择闭源之后，大模型开源vs闭源之争、之战一直存在 DeepSeekR1的开源发布，一举赶超闭源大模型，是大模型开源史上的里程碑美国AI第一梯队企业的前沿技术封闭被打破开源vs闭源不仅涉及技术的公开性，也关乎AI安全治理 DeepSeek：效应——认知误区如果ChatGPT刷新了我们对AI的认知，那么DeepSeek在某种程度上颠覆了： o美国人对中国AI水平的认知：长久以来，美国认为中国在AI科技创新上更多是跟随者角色o大模型研发成本的认知：大模型研发成本需要数千万乃至上亿美元 DeepSeek：效应——创新&人才&Vision 《关于Sora、国内大模型及通用人工智能趋势》《认识大模型》（载于学习时报） DeepSeek：效应——创新&人才&Vision DeepSeekV3和R1的创新，从技术上看，是在探明方向上的较大创新，相比别人同期做的1-100要更创新，笔者将其定义为探明技术方向上的0-1创新（独立探索出技术路线），但不是颠覆了原有技术框架或者开辟了新的方向。探明方向上的0-1创新，如果有足够多的第一类人才，加上足够多的算力和高超的人才管理，是可以实现的，DeepSeek的成功正是得益于此；技术方向已经被探明了的“追赶”相对容易，难的是在前面面向未知开路，即在未探明方向、未有概念上进行0到1创新、或者进行概念形成和验证，这方面的创新是要更多胆量、更多vision、更多不计成本投入才能做到的，同时需要第二类人才与第一类人才紧密合作，形成双反馈；来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破；我国如果要在2030年实现“人工智能理论、技术与应用总体达到世界领先水平”，需要更多企业、高校、研究机构开展探明方向和未探明方向上的0-1创新；报告目录大语言模型发展路线图 01 DeepSeekV2-V3/R1技术原理 02 De

点击免费查看完整报告