您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:AI事件点评:DeepSeek发布高性价比开源模型,有望拉平模型差距、加速AI云与应用发展 - 发现报告

AI事件点评:DeepSeek发布高性价比开源模型,有望拉平模型差距、加速AI云与应用发展

信息技术2025-02-04张伦可国信证券Y***
AI智能总结
查看更多
AI事件点评:DeepSeek发布高性价比开源模型,有望拉平模型差距、加速AI云与应用发展

事项: 2024年12月26日,DeepSeek发布开源模型V3,训练成本仅557.6万美元,性能却能对标GPT-4o。2025年1月20日,DeepSeek继续发布开源模型R1,训练周期仅两个月,在数学、代码、自然语言推理等任务上性能比肩OpenAIo1正式版。对比OpenAI与谷歌每年数十亿美元AI预算,以及25年1月22日发布的计划投资高达5000亿建设AI相关基础设施的“星际之门”项目,低成本的Deepseek引起海内外强烈关注与反思。2025年1月27日,DeepSeek事件继续发酵,并在资本市场引发强烈反应,美国主要AI相关科技股均遭遇股市地震,其中英伟达跌近17%,单日市值蒸发约6000亿美元。伴随热度,DeepSeek应用迅速登顶15个国家和地区的苹果应用商店免费APP下载排行榜,火爆出圈,截止目前20天已经实现2000万下载量。 国信互联网观点:1)对AI模型层,Deepseek的开源与高性价比将显著加剧大模型层竞争,降低大模型门槛、利好追赶者。Deepseek打破已有过度依赖算力与标注数据的训练模式,架构上的“捷径”对于利用大算力与标注数据作为护城河的领先模型是巨大的挑战,为其他模型研发者提供了新的技术思路和追赶方式。DeepSeek不仅主打高性价比还将模型全部开源,这将极大推动开源生态的繁荣,也意味着模型层竞争更加激烈,促使模型开发者不断提升模型性能、降低成本。2)对AI芯片算力层:短期降低先进算力需求预期,ASIC和国产芯片厂商拥有了更长的时间窗口。DeepSeek通过创新的训练方法,如在预训练阶段加入强化学习,证实了在有限算力下实现前沿AI能力的可能性,部分企业预计会减少对大规模算力基础设施的激进投入,短期降低对英伟达的先进算力需求预期,也使得ASIC和国产芯片厂商拥有了更长的时间窗口,算力市场预计走向多元化发展。3)对云厂商:利好云厂商下游需求增长,显著缩小了云厂AI前期投入与应用兑现之间的时间与资源成本,有望进一步提升国产云厂商盈利能力。云厂商集算力供给、大模型研发与AI应用为一体,DeepSeek高性价比、开源模型虽然削弱模型层竞争壁垒,但为云厂商提供了更具性价比的API,如R1上线短短两周,腾讯云、华为云、微软Azure和亚马逊AWS均已上线相关服务。目前云厂商需要承受巨大AI前期投入与应用业绩兑现的时间差,如近期星门计划微软未参与,表明AI投入已经达到短期经济体投入能力的上限(今年微软Capex800-900亿vs1000亿盈利,MetaCapex 600-650亿vs660亿盈利),而Deepseek的技术路线使得云厂可以更加平衡AI的ROI、模型的成本效益和实用性。Deepseek拓展AI应用场景,激发新的算力需求,有望显著带动AI云增长。对国内云厂商,Deepseek将加速企业数字化转型上云,规模效应下进一步提升云业务利润率。4)对AI应用层:降低AI应用研发与落地的成本,加速AI应用发展,Agent与端侧AI预期增强。DeepSeek模型使得开发利用大模型训练、调优的门槛降低,高性价比的模型使得AI应用研发和使用成本显著降低,加速垂类模型发展、利好AI在各行业的渗透。DeepSeek-R1具备深度思考能力,有望成为互动场景或工作任务的“Agent智能体”大脑。同时,Deepseek将同等模型能力所需的算力大幅压缩,有望部署到端侧,加速端侧AI的落地。 投资建议:Deepseek有望加速国内云厂商大模型追赶速度、拉平模型层差距。同时加速国内企业上云、利好云厂商下游需求增长。显著缩小云厂AI前期投入与应用兑现之间的时间与资源成本,规模效应下有望进一步提升国产云厂商利润率。因此,我们推荐国内云厂商龙头阿里巴巴,具备云业务与优质社交场景生态的腾讯控股,以及海外云厂商龙头亚马逊。 评论: Deepseek模型介绍 1)DeepSeek-V3:2024年12月26日发布,在多项测试中达到了与GPT-4和Claude 3.5等顶级模型相当的性能水平。其采用多头潜在注意力(MLA)机制,通过压缩注意力机制中的键和值,有效减少推理阶段的计算量,提高模型运行效率。根据官网介绍训练成本仅557.6万美元,性能却与GPT-4o媲美,对比OpenAI训练GPT-4花费约1亿美元性价比显著。DeepSeekV3使用的token数量约为14.8万亿(1480B),对比GPT-4 MoE使用了13万亿(1300B)token,数量相当。 图1:DeepSeek-V3训练成本 2)DeepSeek-R1:训练基于DeepSeek-V3的基座模型,通过强化学习从V3进化而来,推理过程包含大量反思和验证,思维链长度可达数万字。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。遵循MIT License,即允许用户通过蒸馏技术借助R1训练其他模型。在基准测试中表现与OpenAI的o1模型相当,但价格却显著低于o1,性价比更具优势。 表1:DeepSeek模型情况介绍 Deepseek与GPT、Gemini、Llama等竞品对比 优势: 1)训练与推理的高性价比:DeepSeek-V3的训练成本仅为557.6万美元,远低于GPT-4o等模型所需的数亿美元。其API调用价格也显著低于GPT-4o,推理成本低至每百万tokens 0.014美元。 2)响应速度快:DeepSeek-V3与R1采用MoE架构,每个Token仅激活370亿参数,显著减少了计算量,提高了推理速度,低延迟和高扩展性使其在需要快速响应的应用场景中表现优异。 3)数学推理和编程任务表现优异:在数学推理和编程任务中,DeepSeek-V3表现出色,中文能力突出,更适合中文语境下的任务处理。DeepSeek-R1在高难度推理任务中表现突出,例如在AIME2024和MATH-500等基准测试中,得分高于OpenAI的o1模型。 4)开源与灵活性高:DeepSeek-V3开源,允许开发者自行部署、训练、微调和应用模型,提供了更多的自由和灵活性。 劣势: 1)通用综合性以及多模态能力稍弱:在通用文本生成和创意应用中,DeepSeek-V3与GPT-4o等模型相比还需要更多实际应用场景的验证。在多模态处理能力方面,如对图像、音频的处理能力,相较于Gemini Ultra存在差距。 2)上下文窗口较小:DeepSeek-V3的上下文窗口最多为128K的上下文窗口,与Gemini Ultra的1000K超长上下文窗口相比,DeepSeek模型的上下文窗口长度仍显不足,在处理一些极端长文本任务以及多任务时表现不足。 图2:MMLU ReduxZeroEval得分与输入API价格变化(¥ /1M Tokens) 图3:Deepseek与其他大模型测评得分比较 Deepseek高性价比开源模型带来的影响 1)对AI模型层:开源与高性价比特点显著加剧大模型层竞争,降低大模型门槛、利好追赶者 打破已有过度依赖算力与标注数据的训练模式,显著降低大模型准入壁垒,利好模型追赶者:在此之前,AI大模型发展遵循堆算力和数据的模式,DeepSeek打破了这种传统路径依赖,展示了通过改进模型架构和训练方法,如大规模使用强化学习技术,即使在数据标注量少的情况下,也能极大提升模型推理能力。架构上的“捷径”对于利用大算力与标注数据作为护城河的领先模型是巨大的挑战,为其他模型研发者提供了新的技术思路和追赶方式,预计将引发一波模仿、探索高效训练方法和创新模型架构,从而加速追赶的趋势。 造成模型层同质化,加剧大模型从能力、迭代周期到性价比全面竞争,促进开源生态发展:DeepSeek不仅主打高性价比还将模型全部开源,多家团队已宣布复现其训练过程,这将极大推动开源生态的繁荣,也意味着模型层竞争更加激烈,闭源模型不再拥有绝对优势,促使模型开发者不断提升模型性能、降低成本,以在市场中拥有更多客户和使用量。 2)对AI算力层:短期降低对先进算力需求预期,ASIC和国产芯片厂商拥有了更长的时间窗口 DeepSeek通过创新的训练方法,如在预训练阶段加入强化学习,用较少的计算资源就达到了接近GPT-o1的性能,这使业界开始反思大算力在AI发展尤其是大模型训练过程中的必要性,部分企业预计会减少对大规模算力基础设施的激进投入。短期内可能会局部缓解算力压力,但长期来看,随着AI能力的边界扩展(如多模态、复杂推理、通用人工智能)以及应用场景的爆发式扩展,算力需求仍将增长。 另一方面,也为国产显卡和ASIC芯片带来了机会。因为DeepSeek的RL策略对并行计算需求下降40%,这使得国产算力硬件有机会凭借成本和服务优势在市场中占据一席之地。客户可以根据实际应用场景灵活进行定制化芯片开发,算力市场预计走向多元化发展。 3)对云厂商:利好云厂商下游需求增长,显著缩小了云厂AI前期巨大投入与应用兑现之间的时间与资源成本,有望进一步提升国产云厂商利润率 目前云厂商自身集算力供给、大模型研发与AI应用为一体,DeepSeek高性价比、开源模型的发布虽然削弱模型层竞争壁垒,加大AI云格局的不确定性,但为云厂商提供了更具性价比的AI方案。DeepSeek高性价比、开源模型的发布削弱了云厂商/大模型厂商在AI模型服务层面的壁垒,让大模型差距更小。但DeepSeek利好国内外大模型向OpenAI等一流模型追赶。同时,DeepSeek的高性价比开源模型为云厂商提供了更高效、低成本的API调用方案/AI解决方案,如R1上线短短两周,腾讯云、华为云、微软Azure和亚马逊AWS均已上线DeepSeek-R1相关服务,并提供了便捷的部署和调用方式。 Deepseek缩小了云厂AI前期投入与应用兑现之间的时间与资源成本。近期星门计划微软未参与,表明AI投入已经达到短期经济体投入能力的上限(今年微软Capex800-900亿vs1000亿盈利,MetaCapex 600-650亿vs660亿盈利),而Deepseek的技术路线使得云厂在高额前期投入的重压下有了喘息之机,更好地去评估AI板块的ROI,更加注重模型的成本效益和实用性,加大在模型部署、优化和管理的投入,加强对AI应用场景的拓展和落地。 Deepseek拓展AI应用场景,激发新的算力需求,带动AI云增长。从DeepseekAI对话助手20天已经实现2000万下载量,预计DeepSeek模型的普及将赋能更多应用场景,从而推动了云服务厂商的业务增长,云服务厂商既是技术降本的受益者,也是放大降本效应的推动者。 对国内云厂商,Deepseek将加速企业数字化转型上云,规模效应下进一步提升云业务利润率。AI背景下数字化和云化是必然的趋势,且AI云的技术壁垒、相关配套服务的利润空间和整体市场空间显著高于传统云,而Deepseek模型的出现加速了各行业的数字化转型进程。预计将带动国内云厂商利润率向海外云厂商靠拢。 图4:国内云厂商云收入与同比变化预测(百万元/%) 图5:国内云厂商资本开支与同比变化预测(百万元/%) 图6:国内云厂商AI云收入与同比变化预测(百万元/%) 图7:国内云厂商AI资本开支与同比变化预测(百万元/%) 图8:国内云厂商经营利润率或EBITDA率变化 图9:海外云厂商经营利润率变化 4)对AI应用层:降低AI应用研发与落地的成本,加速AI应用发展,Agent与端侧AI预期增强 降低垂类模型/应用开发门槛,加速AI应用/Agent在各个场景落地:DeepSeek模型的低成本优势使得开发利用大模型训练、调优的门槛降低,企业无需投入巨额资金用于模型训练就能获取高性能模型,加速垂类模型发展,利好AI在各行业的渗透,如医疗、教育等领域,催生出更多创新的AI应用场景和商业模式。且DeepSeek-R1具备深度思考和出色的推理能力、且成本低,有望成为互动场景或工作任务的“Agent智能体”大脑,利于AI Agent在各个场景普及。 显著降低推理成