AI智能总结
投资建议 DeepSeek近期推出V3/R1/Janus-Pro等多款大模型,凭借卓越性能和创新技术,在行业内引发强烈反响,效果显著“出圈”。其中V3正式训练成本仅为557.6万美元,约为GPT-4预算的1/20;R1性能比肩OpenAI o1,但API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,远低于OpenAIo1。我们认为DeepSeek的突破标志着国产大模型技术迈入全球领先行列,其低成本特性将带动AI应用加速落地。 在探讨大模型成本优化与算力需求之间的关系时,我们发现这两者并不是简单的此消彼长,而是相互促进、共同发展的关系。“杰文斯悖论”认为,随着蒸汽机效率的提升,煤炭的消耗量反而增加了。模型算力效率的突破,虽然看似会影响单位计算的价格,进而压缩高性能芯片供应商的利润空间,但从长远来看,这将加速AI的普及和创新,带来算力需求的更大量级提升。定价的持续走低有望带来更快的商业化落地,进而衍生出更多的微调和推理需求,逐步激活全球AI应用及算力发展。 在推理侧算力成本降低之后,“算力平权”将有望加速端侧AI和Agent应用落地。同时落地应用也带来网络安及信创建设需求,相关板块将迎来投资布局机会。 端侧AI方面,DeepSeek推动端侧推理成本压缩,AI眼镜、AI耳机、AI学习机、AI玩具有望四面开花:1)AI眼镜:AI眼镜在软件技术方面与智能手机有较多相似之处,在手机领域布局较深的产业链公司有望收益:比如雷鸟V3使用虹软科技的AI视觉算法猎鹰影像系统;闪极AI拍拍镜由云天励飞提供万物识别功能、由科大讯飞提供复杂环境语音识别、多语言翻译等核心技术。2)AI耳机:科大讯飞相关团队自2011年起专注AI+耳机领域,最新推出的Pro2提供三种录音转写、viaim ai助理、多语种翻译等功能,产品定位商务人群价格较高。若后续将生活娱乐、AI语音交互等功能延伸至耳机端侧、或与其他硬件融合,则相关产品销量有望大幅提升。3)AI学习机:学而思、作业帮、科大讯飞为线上销售额top3,市场份额分别为28%、25%、13%,其中,价格在6,000元以上的高端学习机多搭载更优质的教学资源和AI功能,学而思和科大讯飞分别位列线上市场的销量和销售额首位。4)AI玩具:目前发布的产品核心功能基本一致,包括语音识别、自然语言处理和机器学习,希望通过拟人、拟动物,以及拟IP的方式,与用户进行视/听/触多维度交互,萤石网络、汉王科技、汤姆猫、蜂助手均有布局。 Agent方面,指一种能够独立执行任务、做出决策并与其他系统或用户交互的软件程序或算法。智能体可以执行各种任务,从简单的自动化任务到复杂的决策支持系统。Agent能够接受用户的自然语言请求,具有主动性,能够自动拆解任务并在多个应用程序中无缝协作,目前在企业服务、教育、医疗健康、智能制造、创意软件领域均有布局。 以DeepSeek为代表的国产模型迅速崛起,也因此遭受了网络恶意攻击,这警示大模型厂商提升网络安全能力刻不容缓。国内多家网络安全公司积极响应AI技术进步带来的业务需求,同时也有望借助大模型能力实现防护能力提升和降本增效。此外,AI大模型自主可控已迫在眉睫,除了软件核心组件自主可控以外,硬件产业链的国产替代需求旺盛。2025年是十四五收官之年,预期信创推进政策及配套财政支持政策快速落地,预计上半年信创产业链相关公司的订单回暖将会出现重要信号。 投资建议 建议关注国内生成式大模型龙头科大讯飞;AI硬件有望成为应用落地的新载体,建议关注萤石网络、虹软科技等; AI相关功能打磨能够带动C端应用月活量、付费率提升,建议关注金山办公、万兴科技等。 风险提示 底层大模型迭代发展不及预期,国际关系风险,应用落地不及预期,行业竞争加剧风险。 1.DeepSeek强势崛起,国产大模型技术大幅跃升 DeepSeek近期推出了多款大模型,凭借卓越性能和创新技术,迅速在行业内引发强烈反响,效果显著“出圈”。我们认为DeepSeek的突破标志着国产大模型技术迈入全球领先行列,其低成本特性将带动AI应用加速落地。 2024年12月深度求索推出DeepSeek-V3,以极低的训练成本,实现了与国际顶尖模型相媲美的性能。具体而言,DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022;长文本测评、代码生成、数学方面平均表现超过其他模型;中文能力与Qwen2.5-72B相近。 DeepSeek-V3采用MoE架构,参数规模671B,激活37B,在14.8T token上进行了预训练。根据DeepSeek-V3论文,其正式训练成本仅为557.6万美元,约为GPT-4预算的1/20。模型完全开源,API价格为每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元,显著低于Claude 3.5 Sonnet和GPT-4o。 图表1:DeepSeek-V3性价比远超GPT-4o和Claude 3.5 Sonnet 2025年1月20日,深度求索发布正式版DeepSeek-R1模型,是基于V3基础模型进行微调和强化学习得到的,模型同步开源并实现性能再度提升,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。此外,深度求索还在R1的基础上蒸馏了6个开源小模型,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,价格远低于OpenAI-o1。 图表2:DeepSeek-R1在V3之上再提升 图表3:DeepSeek-R1推理API定价远低于OpenAI-o1 DeepSeek-V3和R1均具备低成本和高性能的特点,在使用经典Transformer解码器模块堆叠和GPT-2/3的架构范式基础上进行了多种算法创新。 低成本:DeekSeek-V3/R1模型降低训练成本主要依赖模型压缩、并行计算和提升硬件使用效率等方法。 模型压缩:包括使用多层注意力(Multi-Layer Attention, MLA)和FP8混合精度训练等。 1)MLA:传统Transformer中每一层都需要完整的计算和存储,其中的Key和Value矩阵往往占用大量内存空间,而MLA通过压缩和复用前序层的K、V来减少内存占用和计算量。DeepSeek通过Key/Value的低秩压缩使得的训练内存占用减少了20-30%,此外还通过对Query的低秩压缩,减少了计算过程中的激活内存占用。 2)FP8混合精度训练框架:FP8用8个二进制位来表示数字的格式,相比传统的FP32和FP16格式,精度有所降低,但是占用空间小、计算快。DeepSeek在采用FP8格式时,采用了“混合精度”的方案,即在8位/16位/32位之间切换,相较原始方法计算速度提升一倍,并显著降低内存消耗。 并行计算:在系统架构层面,DeepSeek使用了专家并行训练技术,通过将不同的专家模块分配到不同的计算设备上同时进行训练,提升了训练过程中的计算效率。在计算和通信重叠方面,DeepSeek创新使用DualPipe方法进行多任务并行处理,能够让模型在进行计算的同时,在后台已经开始准备下一步需要的数据传输。这种设计确保了通信开销被很大程度地隐藏在计算过程中,极大提升了整体效率。根据DeepSeek的技术报告,DualPipe算法减少了50%的计算气泡,有效隐藏了通信开销。 此外,DeepSeek-V3/R1还进行无辅助损失负载均衡、跨节点通信优化,全面提升模型训练效率、降低训练成本。 图表4:DeepSeek通过多种方式实现训练成本极致压缩 高性能:DeepSeek-V3模型的高性能源于参数量较大、训练数据质量高,并使用MTP技术进行架构革新,而R1在V3基础模型上进行蒸馏,进一步提升了模型能力。 参数量:DeepSeek-V3的总参数量有671B,每个token激活37B参数。整体参数总量比Llama 3.1的405B高,也远超Qwen 2.5的72B。在Scaling Law尚未碰壁的情况下,较高的模型参数量利于性能提升。 数据精筛:DeepSeek-V3采用了更多元化的数据获取策略。基础训练数据来源于经过严格筛选的CommonCrawl语料库,研发团队还引入大规模的代码数据集、数学推理数据、科学文献等。在数据清洗环节,DeepSeek采用了专有的数据过滤算法,删除低质量、不完整的数据。团队还通过数据混合采样策略和课程学习方法,进一步优化了训练过程中的数据使用效率。 多token预测(MTP):传统语言模型一次只预测一个token的范式,使用MTP后模型会同时预测多个连续位置的token。这种并行预测机制不仅提高了训练效率,还让模型能够更好地捕捉token之间的依赖关系。在保持输出质量的同时,模型整体性能提升2-3%。 SFT微调和大规模强化学习:R1在V3的基础模型上进行SFT微调和强化学习,继承了V3的低成本特性,并在推理方面表现更优。R1的训练分为两个阶段: 1)有监督微调(SFT):这一环节使用2类数据,一是来自中间推理模型生成的60万个长思维链推理示例,二是20万个来自V3模型生成的与非推理训练样本相关的数据。其中,中间模型是使用强化学习方法对V3的基础版本进行训练得到的,其推理能力已经与OpenAI o1相近,在训练过程中模型思维链长度逐步增加。在微调过程中,DeepSeek还引入数千条高质量、包含长思维链的冷启动数据,显著提升了模型的可读性和多语言处理能力。 2)通用强化学习:针对非推理类应用场景进行了扩展优化——通过引入实用性奖励模型与安全性奖励模型(类似Llama模型的机制)对相关应用的提示进行多维评估。这种复合奖励机制确保模型在扩展应用边界时,既能保持输出有效性,又能遵循安全伦理规范。 图表5:R1在V3基础模型上进行微调和强化学习 除V3/R1外,DeepSeek在2025年1月28日凌晨,再发两款多模态框架——Janus-Pro和JanusFlow。图像理解和图像生成统一的多模态模型训练难度较高,而DeepSeek通过为模型配置双头编码器,分别单独负责理解和创作,成功突破训练瓶颈;规避了ImageNet数据集不真实的问题,直接使用真实的文生图数据进行训练,使得训练时间减少40%、生成质量提升35%、模型对真实场景的适应性大幅提升。 Janus-Pro是一款统一多模态理解与生成的创新框架,包括1.5B和7B两个模型,Janus-Pro运用Transformer架构,将文本、图像、音频等多种模态的数据进行统一处理,实现对不同模态信息的理解与生成。在图像生成领域,Janus-Pro在基准测试中表现优于OpenAI的DALL-E 3以及Stable Diffusion 3 Medium等;在多模态理解领域,其在MMBench评分超过此前最佳水平。 JanusFlow-1.3B是多模态理解模型,参数量仅为1.3B,将基于视觉编码器和LLM的理解框架与基于Rectified Flow的生成框架直接融合,实现了两者在单一LLM中的端到端训练。JanusFlow-1.3B在视觉理解和生成任务上均超过此前同规模的统一多模态模型。 图表6:Janus-Pro 7B在理解和生成两方面都超越了LLaVA、Dalle 3和SD XL等主流选手 2.推理侧算力成本降低之后:算力普及化井喷+端侧/Agent加速落地 2.1 Deepseek对算力影响几何?—推理成本较o1降数量级,有望推动算力普及化井喷 Deepseek性能对齐OpenAI最新模型水平,推理成本相比o1降数量级。Deeps