行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

产业专题：大模型降本增效时代开启，DeepSeek效率提升与创新技术路径分析

信息技术 2025-05-01 - 国泰海通证券阿杰

核心观点

2025年成为人工智能发展的关键节点，大模型推理能力跃升，强化学习与知识蒸馏技术显著提升算法效率，混合专家（MoE）架构与多模态整合成为技术主线。开源与闭源的双轨竞争正在催生AI技术扩散新格局，形成“开源协同创新+专有垄断”的生态模式。AI智能体革命加速生产力变革，推动自动化决策与自主执行。全球AI产业规模指数级增长，2025年市场预计达7576亿美元。

DeepSeek系列模型技术演进与各阶段核心突破

DeepSeek LLM：开源大模型奠定技术普惠化基础。
DeepSeek V2：MoE架构革新，实现效率与性能双突破，关键技术突破包括低秩KV缓存压缩、细粒度专家共享机制、8.1T多源语料训练。
DeepSeek V3：超大规模训练，验证FP8低精度可行性，核心创新涵盖动态负载均衡策略、多Token预测（MTP）、FP8混合精度训练。
DeepSeek R1：纯强化学习驱动，定义高效推理新标杆，关键技术路径包括纯强化学习训练、轻量化蒸馏部署、冷启动数据与四阶段训练。

DeepSeek的技术突破与降本提效

数据驱动下的基础构建：DeepSeek V3超大规模多模态数据构建驱动复杂任务泛化能力跃升，DeepSeek R1的语料构建策略通过精心设计的冷启动数据与监督微调阶段，实现了模型在复杂推理任务与通用能力之间的平衡优化。
关键技术路径解析：
- 架构革新：DeepSeek-V3/R1的架构革新包括6710亿参数MoE架构+MLA压缩技术、细粒度专家拆分策略、共享-路由专家设计、低秩联合压缩机制、无辅助损失的负载均衡策略、多Token预测技术（MTP）。
- 训练优化：DeepSeek-V3/R1的训练优化包括FP8混合精度训练策略、双向流水线并行算法（DualPipe）、定制化的跨节点All-to-All通信内核。
- 训练革新：DeepSeek-R1的训练革新包括纯强化学习训练（GRPO算法）、轻量化蒸馏部署、冷启动数据与四阶段训练、拒绝采样、监督微调、全场景偏好对齐的强化学习。
降本提效的内在逻辑：DeepSeek-R1的训练流程是一个多阶段、高度优化的过程，旨在通过技术创新与资源高效利用，显著提升模型的推理能力并与人类偏好对齐。

DeepSeek正推动AI大模型产业变革

引领AI普惠化：DeepSeek R1以高效率优势推动AI进入“安卓时刻”，引发全球AI大模型普惠潮，采用MIT许可协议，完全开放模型权重、训练日志及技术细节，降低了技术应用门槛，使企业能够快速获取AI能力。
提振中国AI竞争力：R1证明了国产模型在核心算法（如强化学习、蒸馏技术）上的领先性，摆脱了对“算力堆砌”路径的依赖，性价比优势直接挑战OpenAI等闭源巨头，迫使厂商重新评估定价策略和技术开放度。
技术外溢效应增强：DeepSeek采用MoE架构，支持动态激活部分参数以适应不同场景需求，开源生态涌现出127个优化版本，形成技术反哺机制，催生出超2000个插件，使其拥有强大的扩展能力，企业能够在通用大模型基础上蒸馏和微调行业模型，从而增强行业适配性。
精准匹配B端市场：DeepSeek开源大模型通过“私有化部署+联邦学习+模块化定制”的三重技术架构，精准匹配B端市场对数据主权、场景适配与协作效率的核心诉求，成为驱动企业级AI需求爆发式增长的关键引擎。
加速AI在C端的广泛普及：DeepSeek加速AI在C端的广泛普及，通过交互方式革新与服务效能优化，提升用户智能体验，C端用户能够免费或低成本获取高性能AI服务，AI手机、AI PC等智能终端将在2025年迎来增长，为用户带来更个性化的交互体验。

研究结论

DeepSeek R1通过开源策略、技术突破和成本优化，推动全球AI大模型普惠化，并在B端和C端市场加速AI商业化应用落地。其MIT许可开源模式降低企业获取AI的门槛，使开发者可低成本构建垂直领域AI，推动算力民主化，并促使OpenAI等闭源巨头调整策略。R1在强化学习、蒸馏等核心算法上的领先性增强了中国AI竞争力，同时，其私有化部署、联邦学习和模块化定制满足B端对数据安全与定制化的需求，加速企业级AI需求爆发。在C端，AI搜索、智能助手、AI手机等应用场景快速增长，AI终端设备推动个性化交互体验升级，使AI原生应用进入发展快车道。

关键数据

DeepSeek V3超大规模多模态数据构建：14.8万亿token。
DeepSeek R1语料：4.8T token跨领域语料。
DeepSeek V3参数：6710亿。
DeepSeek R1在MATH-500测试中准确率：97.3%。
DeepSeek R1在AIME 2024测试中准确率：79.8%。
DeepSeek R1在Codeforces编程竞赛中表现：超越96.3%的人类选手。
DeepSeek R1支持长文本处理：128K长上下文输入。
DeepSeek R1预训练成本：557.6万美元。
DeepSeek R1 API成本优势：达27倍。
全球AI产业规模：2025年预计达7576亿美元。

产业研究中心摘要： DeepSeek V3通过6710亿参数MoE架构、MLA压缩技术、MTP预测等创新，实现低成本、高稳定性的超大规模模型训练，在数学、代码与多语言任务中达到开源模型性能巅峰。其MoE架构采用256个路由专家+1个共享专家模式，每个token仅激活8个路由专家+1个共享专家，相较传统Transformer大幅降低计算成本与显存占用。MLA机制利用低秩联合压缩技术优化长序列处理，将KV缓存需求降低80%，提高推理效率。无辅助损失的负载均衡策略通过动态偏置调控优化训练稳定性，而MTP多步预测技术基于分阶段协作，使训练速度提升1.8倍，提升复杂任务解决能力。 DeepSeek R1基于V3，以强化学习训练为核心，通过冷启动数据、多阶段优化、模型蒸馏等创新，在数学推理、代码生成等领域达到顶尖模型水平，并实现高效推理和轻量化部署。其无监督版本R1-Zero创新采用组相对策略优化算法，通过组内答案比较优化策略，降低训练成本并提升推理能力。R1在此基础上，通过长思维链微调、双奖励强化学习、拒绝采样及监督微调等多阶段优化，增强语言一致性和推理质量。在数学、代码、长文本及知识任务中，DeepSeek-R1超越多款闭源模型，并在MATH-500等测试中取得领先成绩。同时，MoE架构优化、FP8混合精度训练、DualPipe通信等技术显著降低训练和部署成本，其预训练成本仅为557.6万美元，远低于GPT-4o及Llama 3.1，API成本优势达27倍，成为开源领域高效能、低成本AI的标杆。 DeepSeek R1通过开源策略、技术突破和成本优化，推动全球AI大模型普惠化，并在B端和C端市场加速AI商业化应用落地。其MIT许可开源模式降低企业获取AI的门槛，使开发者可低成本构建垂直领域AI，推动算力民主化，并促使OpenAI等闭源巨头调整策略。R1在强化学习、蒸馏等核心算法上的领先性增强了中国AI竞争力，同时，其私有化部署、联邦学习和模块化定制满足B端对数据安全与定制化的需求，加速企业级AI需求爆发。在C端，AI搜索、智能助手、AI手机等应用场景快速增长，AI终端设备推动个性化交互体验升级，使AI原生应用进入发展快车道。风险提示：算力供应链自主性风险、商业化变现能力不及预期、监管与安全风险。目录 1. DeepSeek引发大模型开源与效率提升革命，AI产业进入发展新纪元.........31.1.全球AI发展新阶段，技术突破与产业融合重塑竞争格局......................31.2.DeepSeek系列模型技术演进与各阶段核心突破........................................42.技术突破驱动降本提效：DeepSeek的创新路径解析.....................................52.1.数据驱动下的基础构建：大规模语料与高质量数据处理........................52.2.关键技术路径解析：从架构创新到训练优化全方位降本提效................62.3.降本提效的内在逻辑：多项技术协同释放成本红利..............................123.DeepSeek正推动AI大模型产业变革..............................................................134.风险提示............................................................................................................14 1.DeepSeek引发大模型开源与效率提升革命，AI产业进入发展新纪元 1.1.全球AI发展新阶段，技术突破与产业融合重塑竞争格局 2025年成为人工智能发展的关键节点，大模型技术推理效能跃升，强化学习与知识蒸馏技术显著提升算法效率，混合专家（MoE）架构与多模态整合成为技术主线。如DeepSeek-R1通过四阶段强化学习突破逻辑推理瓶颈，GPT-4o构建端到端统一表征空间，实现文本-图像-音频的实时协同处理（响应时间320ms），支持50种语言混合输入及跨模态内容生成。这些技术突破标志着AI从单模态专项能力逐渐向通用智能跨越。开源与闭源的双轨竞争正在催生AI技术扩散新格局，形成“开源协同创新+闭源技术垄断”的生态模式。开源模型（如DeepSeek-V3）凭借低成本（557万美元训练成本）和高度可定制性，在垂直场景中正迅速普及，使中小企业能够以较低投入享受通用AI赋能。而闭源模型（如GPT-4o）依托多模态技术壁垒，维持在综合性能和通用应用上的领先地位，尽管其高昂成本限制了普及速度。两者相辅相成，开源模式推动技术共享与创新扩散，促进产业生态多样化，而闭源模式则通过专有技术和领先算法，确保高端市场的竞争优势。这一双轨体系促使AI技术在灵活性、性能与商业化之间取得平衡，并推动人工智能向更广泛的社会经济领域渗透。 AI智能体革命重构生产力范式，应用生态持续扩张。AI智能体正从传统的辅助工具演进为具备自主决策能力的“数字劳动力”，推动生产力变革。2025年被视为“AI智能体元年”，标志着AI从被动执行指令向主动承担任务的转变。例如，OpenAI Tasks和微软邮件管理智能体已不再局限于简单的命令响应，而是能够独立完成复杂任务，如自动处理订单、智能归类邮件，甚至在多任务环境下优化资源分配。这一进步依赖于更强大的大模型推理能力、上下文记忆和跨应用协同能力，使AI具备更高的自主性。随着AI在企业运营、客户服务、供应链管理等领域的广泛应用，数字劳动力的概念逐渐落地，大幅提升效率并降低人力成本。这一趋势意味着AI不再仅仅是生产力的“副驾驶”，而是能够主动学习、优化决策并执行任务的独立智能体，为未来的智能经济奠定基础。全球AI产业规模指数级增长，区域竞合格局分化。根据IDC预测，2025年全球AI产业规模预计达7576亿美元（同比+21.5%），生成式AI服务器占比升至37.7%，中国算力市场2024年突破190亿美元（同比+86.9%）。中美欧形成技术-市场-治理三极体系。北美（OpenAI、微软）领跑技术研发，中国（北京、杭州、上海产业集群）依托政策与市场快速崛起，欧洲主导AI伦理标准制定，三极竞合推动技术-治理规则博弈。中国政策引导下自主生态体系加速成型。截至2024年累计批准117个大模型（含小米、3Paradigm），政策驱动下构建“国产替代+开源协同”生态，2030年LLM市场规模或达2598亿美元。 1.2.DeepSeek系列模型技术演进与各阶段核心突破 DeepSeek LLM（2023年11月）：开源大模型奠定技术普惠化基础。作为开源通用大语言模型，DeepSeek LLM凭借670亿参数规模与Transformer-GQA架构，在代码生成与多语言任务中接近GPT-4性能。其核心创新包括多步学习率动态调度与语义对齐预训练技术，并通过开源策略推动社区生态建设，打破闭源技术垄断依赖。 DeepSeek V2（2024年5月）：MoE架构革新，实现效率与性能双突破。基于混合专家（MoE）架构与MLA注意力压缩技术，V2模型以2360亿参数实现训练成本降低42.5%（对比67B版本）。关键技术突破包括： 低秩KV缓存压缩：内存占用减少93.3%，支持128K长上下文处理，生成吞吐量提升5.76倍；细粒度专家共享机制：优化计算资源利用率，提升训练和推理效率；8.1T多源语料训练：覆盖技术文档与多语言数据，中文综合评测领先行业。 DeepSeek V3（2024年12月）：超大规模训练，验证FP8低精度可行性。通过6710亿参数MoE架构与FP8混合精度训练，V3以278.8万H800 GPU小时的低成本完成训练，并在数学、代码与多语言任务中达到开源模型性能巅峰，直逼顶级闭源模型。核心创新涵盖： 动态负载均衡策略：无辅助损失调控专家资源分配，训练稳定性提升90%； 多Token预测（MTP）：生成速度达60 TPS，长文本任务耗时缩减40%； FP8混合精度训练：80%-85%计算使用FP8格式，显著降低显存占用与通信开销，验证了其在万亿参数级模型的可行性。 DeepSeek R1（2025年1月）：纯强化学习驱动，定义高效推理新标杆。基于V3架构的R1模型，通过纯强化学习训练框架与冷启动数据优化，在数学推理（AIME测试pass@1达79.8%）与代码生成（LiveCodeBench成绩65.9%）中媲美GPT-4o。关键技术路径包括： 纯强化学习训练：DeepSeek R1首次实现完全依赖强化学习（RL）的推理训练范式，摒弃传统监督微调（SFT）依赖，通过组相对策略优化（GRPO）框架自主演化推理模式。在数学推理任务（如AIME 2024）中，其单样本通过率（pass@1）达79.8%，接近OpenAI o1-1217的85%，验证了RL在复杂逻辑推理中的潜力； 轻量化蒸馏部署：7B蒸馏模型以1/10成本实现55.5%推理性能，推动普惠化应用；支持Qwen、Llama等主流框架，发布1.5B至70B参数蒸馏模型，覆盖边缘计算至云端全场景； 冷启动数据与四阶段训练：解决输出质量与语言一致性难题。通过冷启动数据与分阶段训练策略，模型在生成内容的可读性与语义一致性层面实现了系统性提升。冷启动阶段通过注入人工标注的思维链模板，为模型构建了标准化的推理框架，使其在训练初期即可输出具备逻辑可追溯性的结构化内容。进一步地，在多阶段训练流程中引入动态语言对齐奖励机制——基于目标语言的词汇分布约束与语法规范性评估，通过强化学习框架迭代优化输出流畅度。 2.技术突破驱动降本提效：DeepSeek的创新路径解析 2.1.数据驱动下的基础构建：大规模语料与高质量数据处理 DeepSeek V3超大规模多模态数据构建驱动复杂任务泛化能力跃升。DeepSeek V3通过14.8万亿token的异构数据融合训练，DeepSeek R1基于4.8T token跨领域语料。系统性整合多语言（覆盖200+语种）、STEM学术论文（占比18%）、开源代码库（GitHub数据达4.2TB）及技术文档资源，构建全球规模最大的开源预训练语料库。该数据集采用动态质量过滤机制（困惑度阈值±2σ）与领域自适应采样策略（数学/编程数据权重提升3倍），使模型在数学推理（MATH-500得分91.2）、代码生成（HumanEval-Mul 83.5）等复杂任务中超越主流开源模型15%-22%。 DeepSeek R1的语料构建策略通过精心设计的冷启动数据与监督微调阶段，实现了模型在复杂推理任务与通用能力之间的平衡优化，体现了其独特的训练方法论。在冷启动阶段，模型通过精选数千条带详细思维链（CoT）的人工标注数据，覆盖数学证明、代码调试等复杂推理场景，形成高质量的初始监督微调（SFT）数据集。这些数据不仅通过少样本提示生成，还经过人工修正，确保推理框架的可读性与逻辑严谨性，为模型提供了标准化的推理路径。随后，在监督微调阶段，DeepSeek-R1将DeepSeek-V3的通用SFT数据（涵盖非推理任务）与强化学习拒绝采样生成的推理数据相结合，构建了一个规模达800k的混合数据集。这一策略不仅保留了模型在通用任务上的表现能力，还显著提升了其在复杂推理任务中的性能。通过这种分阶段、多层次的语料构建方式，DeepSeek-R1在推理能力与通用性之间实现了协同优化，为后续模型的训练与应用奠定了坚实的基础。 2.2.关键技术路径解析：从架构创新到训练优化全方位降本提效 2.2.1 DeepSeek V3/R1的架构革新 DeepSeek-V3以6710亿参数MoE架构+MLA压缩技术为核心，通过FP8训练、MTP预测、动态负载

点击免费查看完整报告