AI智能总结
DeepSeek携三款创新模型强势入场,以卓越成就掀起行业变革浪潮。 DeepSeek在2024年底后接连发布V3、R1和Janus-Pro,它们在多项评测中胜过主流开源模型,且具有成本优势。V3创新架构提升推理效率、降低训练成本且性能卓越;R1专注提升推理能力,多领域表现优异,蒸馏模型效果良好;Janus-Pro改进架构、策略、数据和规模,多模态与视觉生成能力突出。DeepSeek推动AI大模型降本,我们认为其低成本,高性能的表现将推动大模型革新,促使AI服务更加普及和实惠,有望驱动更多厂商入局推理端大模型布局,提升后续AI模型的需求及AI应用的加速爆发,长期或将大幅提升推理侧算力需求,且其对算力芯片要求相对较低,国产算力芯片迎新发展机遇,高度重视算力底座中芯国际、昇腾910产业链等。 除DeepSeek之外,1月20日,月之暗面发布k1.5多模态思考模型,性能对标OpenAI o1正式版;1月22日,字节跳动发布豆包大模型1.5 Pro版本,采用大规模稀疏MoE架构,全面提升了多模态能力;1月28日,通义两大模型正式开源,Qwen2.5-VL和Qwen2.5- 1M 分别在视觉理解和长文本理解方面实现突破;1月29日,通义千问旗舰版Qwen2.5-Max升级发布,综合性能强劲。可以看到,国内大模型迎来了密集的发布潮,正处于技术进步迅速、市场规模快速增长的爆发式发展阶段,有望推动AI技术在各个领域落地开花。 DeepSeek-R1蒸馏小模型性能卓越且为开源,有望推动端侧部署,带动AI终端时代来临。微软宣布专为神经处理单元(NPU)优化的DeepSeek R1模型即将登陆Copilot+ PC(Windows 11 AI+ PC)。英特尔2023年启动AI PC加速计划,推动AI PC生态的快速发展,目前支持包括DeepSeek在内的超过500个AI模型,DeepSeek-R1-1.5B模型能够顺利运行在最新发布的酷睿Ultra 200H平台。除蒸馏模型之外,目前通过针对性的量化技术压缩体积,完整的671B MoE模型有望消费级硬件上(如单台Mac Studio)运行,大幅降低本地部署门槛,我们认为未来更大规模的模型有望在个人电脑上运行,带动个人超级电脑时代来临,进一步带动PC换新需求以及相关部件,如内存、散热、结构件等的升规升配。 周观点:相关标的见尾页。 风险提示:下游需求不及预期、研发进展不及预期、地缘政治风险。 重点标的 股票代码 1、国产大模型:低成本+高性能带动迅速破圈 1.1DeepSeek-V3:高效训练降本,性能比肩GPT-4o DeepSeek-V3是由DeepSeek-AI研发的一款强大的混合专家(MoE)语言模型,在自然语言处理领域展现出卓越的性能与创新。它拥有671B总参数,每个令牌激活37B,在追求强大性能的同时,保持了经济的训练成本。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 图表1:DeepSeek-V3及其同类模型的基准测试性能对比 1.1.1架构和基础设施的创新实现高效训练降本 MLA架构对模型的推理效率提升起到了关键作用。MLA(Multi-Head Latent Attention)的核心机制在于对注意力键值(KV)进行低秩联合压缩。在传统的Transformer架构中,推理时的KV缓存会占用大量资源,影响推理速度。而MLA通过这种低秩联合压缩方式,在保持模型性能的同时,有效地减少了推理时所需的KV缓存。具体来说,它将多个头的注意力键值进行联合处理,以低秩矩阵的形式来近似表示,从而降低了内存占用,使得推理过程更加高效。这种方式不仅没有牺牲模型对上下文信息的理解和处理能力,反而在一定程度上优化了信息的提取和整合,使得模型在处理长文本时也能保持较高的效率。 图表2:DeepSeek-V3基本架构示意图 DeepSeekMoE架构在模型的训练和性能表现方面有着独特的优势。它采用了更细粒度的专家划分机制,将模型的功能进行更细致的分工,每个专家负责处理特定类型的语言任务或知识领域,这样可以提高模型对不同任务的适应性和处理能力。同时,部分专家共享机制的引入,使得模型在参数规模庞大的情况下,依然能够实现经济高效的训练,通过共享部分专家参数,既减少了模型的训练成本,又保证了模型在不同任务之间的泛化能力。此外,为了解决MoE架构中常见的负载平衡问题,DeepSeek-V3提出了辅助损失免费策略,该策略在不增加额外辅助损失的情况下,实现了专家之间的负载均衡,避免了因某些专家过度使用或闲置而导致的性能下降。 MTP模块是DeepSeek-V3模型架构中的又一创新点。MTP(Multi-Token Prediction)模块旨在扩展模型的预测范围,提高数据效率和模型性能。传统的语言模型通常一次只预测一个token,而MTP模块允许模型一次预测多个token。它通过引入一个独立的前馈网络(FFN),基于解码器的最后一个隐藏状态来预测多个token。在训练过程中,MTP模块的目标是最小化预测token与真实token之间的交叉熵损失。这种方式不仅加快了模型的生成速度,还能够更好地捕捉语言中的长距离依赖关系,提升了模型在处理复杂语言结构时的表现。 图表3:MTP实现示意图 DeepSeek-V3的训练依托强大的计算集群。该集群配备了2048个NVIDIA H800 GPU,集群中的每个节点包含8个GPU,节点内通过NVLink和NVSwitch连接,以实现高速的数据传输;节点间则利用InfiniBand((IB)互连来促进通信,确保集群整体的高效运作。 HAI-LLM训练框架采用了多种优化措施。DualPipe算法实现了高效的流水线并行,能够合理分配计算任务,减少计算资源的等待时间,提升训练效率。开发的高效跨节点全对全通信内核,优化了节点间的数据交换,避免通信瓶颈对训练效率的影响。同时,进行了细致的内存优化,包括对内存的高效管理和分配,减少内存占用和碎片,充分利用内存资源。 图表4:DualPipe调度示例 采用FP8混合精度训练框架。在不同计算环节灵活使用不同精度的数据表示,在保证模型精度的同时提升了计算效率。针对FP8数据类型可能导致的精度损失问题,采用动态量化等精度提升策略,在低精度存储和通信情况下尽可能保持模型训练精度。通过特定的数据编码和传输方式,对低精度存储和通信进行优化,减少数据在存储和传输过程中的精度损失,保障训练稳定性和准确性。 DeepSeek-V3的训练过程涵盖多方面。在预训练数据构建上,优化语料库、增数学编程样本比例并扩展多语言覆盖;预训练超参数经细致调整,还采用有效方法扩展长上下文;评估时在知识、代码和数学等多领域基准测试中表现优异,超越众多开源模型且与领先闭源模型相当;消融实验验证了MTP和辅助损失免费策略等对提升模型性能的关键作用。 DeepSeek-V3不包括架构、算法等成本的正式训练成本为557.6万美元,架构和基础设施的创新实现有效降本。以H800算力计算,不到两个月的时间内DeepSeek-V3就完成了预训练,耗费266.4万个GPU小时,加上上下文长度扩展所需的11.9万个GPU小时和后训练阶段的0.5万个GPU小时,仅需278.8万个GPU小时就完成了DeepSeek-V3的完整训练;在H800GPU的租用价格为每GPU小时2美元的情况下,总训练成本仅为557.6万美元。 图表5:DeepSeek-V3的训练成本 1.1.2模型性能领先,优势显著 测试表明,DeepSeek-V3是性能最佳的开源模型,与GPT-4o和Claude-3.5-Sonnet等前沿闭源模型相比也颇具竞争力: 在MMLU、MMLU-Pro等英语基准测试中,DeepSeek-V3表现出色,与顶尖模型相当或超越部分对手;在DROP、LongBenchv2等长上下文理解基准测试中,也展现出强大实力;在SimpleQA事实性知识基准测试中因训练侧重导致表现稍逊,但在指令遵循基准测试中优于前代。 在编码任务中,DeepSeek-V3在工程任务上落后于Claude-Sonnet-3.5-1022但超越开源模型,在算法任务上表现优异;在数学基准测试中,DeepSeek-V3大幅超越基线模型,为非o1-like模型树立了新标杆。 在中文基准测试ChineseSimpleQA上,DeepSeek-V3超越Qwen2.5-72B;在C-Eval和CLUEWSC基准测试中,DeepSeek-V3和Qwen2.5-72B表现相近。 在开放式生成任务测试中,DeepSeek-V3在Arena-Hard和AlpacaEval2.0评估中表现出色,对复杂提示处理能力强,在简单任务处理上也有显著进步,缩小了开源与闭源模型的性能差距。 图表6:DeepSeek-V3与其他具有代表性的聊天模型对比 图表7:英语开放式对话表现对比 在判断能力上,DeepSeek-V3在RewardBench中的判断能力与GPT-4o-0806和Claude-3.5-Sonnet-1022相当,且可通过投票技术增强,用于对开放式问题提供自我反馈,提升对齐过程的有效性和稳健性。 图表8:DeepSeek-V3和相关模型在RewardBench上的性能表现对比 1.2DeepSeek-R1:促进AI平权,蒸馏技术提高小模型推理性能 DeepSeek-R1是致力于提升语言模型推理能力的前沿模型。研究以DeepSeek-V3-Base为基础模型,运用GRPO作为RL框架训练出DeepSeek-R1-Zero。该模型展现出强大的推理能力,在AIME2024基准测试中成绩提升显著,但存在可读性差和语言混合等问题。 为解决上述问题并进一步提升性能,研究引入DeepSeek-R1,经多阶段训练,DeepSeek-R1在推理任务上达到与OpenAI-o1-1217相媲美的性能。 图表9:DeepSeek-R1及其同类模型的基准测试性能对比 1.2.1强化学习驱动模型推理能力飞跃 以往研究多依赖大量监督数据提升模型性能,本研究则表明,大规模强化学习(RL)可显著提升推理能力,少量冷启动数据能进一步优化效果。研究内容包括直接在基础模型上应用RL训练的DeepSeek-R1-Zero、使用冷启动数据训练的DeepSeek-R1,以及将推理能力从DeepSeek-R1蒸馏到小模型的方法。 DeepSeek-R1-Zero:基础模型的强化学习 探索大语言模型在无监督数据下,通过纯强化学习自我进化发展推理能力的潜力。采用GRPO算法降低训练成本,使用基于规则的奖励系统(准确性奖励和格式奖励),设计简单训练模板引导模型。DeepSeek-R1-Zero在训练中性能稳步提升,在AIME2024基准测试中表现突出,还展现出自我进化能力和“顿悟时刻”,但存在可读性差和语言混合的问题。 图表10:DeepSeek-R1-Zero在训练过程中的AIME准确率 DeepSeek-R1:冷启动强化学习 为解决DeepSeek-R1-Zero的问题并提升推理性能,团队设计了DeepSeek-R1的四阶段训练流程。冷启动阶段收集少量长思维链数据微调模型;推理导向强化学习阶段,应用与DeepSeek-R1-Zero相同训练过程并引入语言一致性奖励;拒绝采样和监督微调阶段,收集推理和非推理数据微调模型;全场景强化学习阶段,通过多种奖励信号和提示分布,提升模型的实用性、无害性和推理能力。 蒸馏:赋予小模型推理能力 为使小模型具备类似DeepSeek-R1的推理能力,用DeepSeek-R1生成的800k样本直接微调Qwen和Llama等开源模型。实验表明该方法能显著提升小模型推理能力,且仅进行监督微调(SFT)就能取得好效果,为研究小模型推理能力提供