您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:DeepSeek将如何改变AI应用? - 发现报告

DeepSeek将如何改变AI应用?

AI智能总结
查看更多
DeepSeek将如何改变AI应用?

DeepSeek将如何改变AI应用? 分析师:苏仪执业证书编号:S0740520060001 分析师:闻学臣执业证书编号:S0740519090007 联系人:刘一哲Email:liuyz03@zts.com.cn 分析师:王雪晴执业证书编号:S0740524120003 核心观点 ◼从kimi(月之暗面)到智谱,从豆包(字节)到DeepSeek,中国基础大模型一直处于快速演进之中,演进的主旋律则体现为性能提升和成本降低,与计算机历史上PC、互联网的发展逻辑类似。我们总结了以下三个关键词: ◼关键词1:低成本。与暴力美学的大模型相对应的就是高成本,动则数百上千万元的成本投入在很大程度上制约了下游需求的释放,在中国当前的宏观环境下这种挑战更为明显。DeepSeek带来的成本指数级下降,将会大大加速AI应用的落地进程。 ◼关键词2:开源。伴随闭源基础大模型能力不断提升之后,是否会向上侵蚀应用市场成为了市场的一种担忧。而开源体系大大降低这种可能:1)开源体系需要生态繁荣,基模厂商与应用厂商是合作关系;2)对于应用厂商而言,开源大模型的可获得性、可把握性更强,更容易基于此构建自己的垂直模型和能力。 ◼关键词3:中国。中国具有广阔的应用场景,但一方面接入海外OpenAI模型存在一定的障碍,另一方面中国的基础大模型能力存在差距。DeepSeek缩小了这种能力差距,一定程度上补齐了中国AI应用的底座短板。 CCONTEBig Picture:从基础模型的能力上限和应用成本谈起 应用的分析框架:能力上限与应用成本共同决定应用场景 ◼AI随模型能力的提升和应用成本的降低,共同解锁更多应用场景。 能力上限之一:DeepSeek系列模型拥有比肩GPT-4o、Claude3.5和o1的能力 ◼DeepSeek V3再次展现出能力上限突破,在MMLU、MATH 500等任务中均表现除了优于GPT-4o和Claude-3.5-Sonnet的SOTA能力。其发布的推理模型DeepSeek-R1在数学、编程等推理任务中接近或达到了o1的水平。 资 料 来 源 :DeepSeek-R1:Incentivizing Reasoning Capability in LLMs viaReinforcementLearning,中泰证券研究所 资料来源:DeepSeek-V3TechnicalReport,中泰证券研究所 能力上限之二:后训练阶段大规模应用强化学习,表现推理能力扩展 ◼DeepSeek模型在Post-Train阶段大规模应用了强化学习方法。R1使用了冷启动微调+强化学习方法,R1-Zero版本模型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和long-CoT能力涌现等)。 资料来源:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning,中泰证券研究所 资料来源:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning,中泰证券研究所 能力上限之二:纯强化学习的R1-Zero展现出“Aha Moment”能力涌现 ◼RL下模型展现出了自主开发先进问题解决策略的行为:1)模型表现出了“Aha moment”,突然学会更有效的推理方式,也增加了推理复杂度;2)模型在训练过程中出现了Reflection能力,能够重新评估初始方法来学习为问题分配更多的思考时间。虽然应用纯强化学习方法的R1-Zero在稳定性、可读性上仍有差距(存在多语言混杂生成现象),但Aha Moment、Reflection等能力的出现展现出了纯强化学习方法的巨大潜力。 图表:训练过程中R1-Zero表现出的AhaMoment 能力上限之三:开源Janus-Pro模型,图像生成和多模态理解能力大幅提升 ◼Janus-Pro结合了优化的训练策略,扩展了训练数据集和模型规模。通过这些改进,Janus-Pro在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。 ◼作为在GenEval等评测中超越DALL-E 3和Stable Diffusion 3-Medium的开源模型,Janus-Pro也展现出了更多应用潜力。 资料来源:Janus-Pro:UnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling,中泰证券研究所 应用成本之一:极致优化的工程化方法,大幅降低训推成本 ◼DeepSeek在训练阶段采用了多种方法降低训练成本,并保证模型的良好表现。1)冷启动:构建并收集少量Long-CoT数据来微调模型,而非单纯运用大规模RLHF或RL,很好地平衡了性能和成本;2)MLA(多头潜在注意力机制)的优化:降低了键值量缓存需求,减少算力压力;后续的ALFS(无辅助损失负载均衡策略)方法:能让MoE的专家在偏好值和工作量上达成平衡状态,当负载比较大的时候能够转移到其他专家上,加强了模型整体性能的负载均衡与稳定性。 图表:DeepSeek-R1训练过程 资料来源:木尧,中泰证券研究所 应用成本之二:低推理成本+开源,api成本仅为o1几十分之一 ◼对V3进行蒸馏的R1在数学、代码能力上再次显著提升。MoE架构的R1模型共有671B规模,激活后的参数量为37B,部署时能够大大节省推理成本。 ◼DeepSeek开源了模型,API的调用价格也大幅低于OpenAI。以Output API价格为例,DeepSeek-R1大约是OpenAI的3.7%。以R1为代表的优秀开源模型的能力也离闭源模型越来越近。 DeepSeek-R1的Output API价格约为o1的3.7% 资料来源:DeepSeek,中泰证券研究所 资料来源:EpochAI,中泰证券研究所 应用成本之三:蒸馏小型模型展现Test-time Scaling,有极高应用潜力 ◼通过将DeepSeek-R1的推理能力蒸馏到更小的模型中,较小的模型也能具备强大的推理能力。DeepSeek开源了从15亿到700亿参数的R1蒸馏版本。这些模型基于Qwen和Llama等架构蒸馏,表明复杂的推理能力可以被封装在更小、更高效的模型中。从论文结论看,蒸馏比单独依赖强化学习训练更为高效,且蒸馏与强化学习的结合可以进一步提升模型性能。 ◼2025年2月,科学家李飞飞团队带领以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型,也展现了蒸馏模型应用的更多应用潜力。 S1仅使用1000个微调示例就达到了类似r1的准确度 模型展现出随推理时间增加准确度增加的Test timeScaling 资料来源:s1:Simpletest-timescaling,中泰证券研究所 资料来源:s1:Simpletest-timescaling,中泰证券研究所 CCONTE中 泰 证 券 研 究 所应用场景:通用+行业场景不断解锁,关注B端SaaS落地+AI安全 理解应用层公司的价值创造:取代人力,瞄向万亿级别的服务市场 ◼应用层AI公司不仅是基础模型之上的前端界面,而是拥有复杂的认知架构的应用产品。通常包括多个基础模型,上面有某种路由机制,用于检索增强生成(RAG)的向量和/或图数据库,合规性和安全性防护手段,以及模仿人类在工作流程中进行推理思考方式的应用逻辑。 ◼借助Agent,应用层软件公司能够将服务转化为软件(Service-as-a-Software)。这意味着应用的目标市场不是软件市场,而是以万亿美元计的服务市场。而随着基础模型推理成本快速下降和性能提升,这种应用的价值创造增速将远超传统软件模式。 资料来源:IDC,中泰证券研究所 资料来源:SequoiaCapital,中泰证券研究所 通用场景之一:生产力工具对应生成能力,AI加速渗透 ◼生产力工具能够较好嵌入和应用大模型的生成能力,将最先受益于模型能力上限提升和成本下降。如以Office 365Copilot、WPS AI为代表的AI+办公软件和以Midjourney、Sora为代表的多模态生成模型正在加速渗透。据智联招聘调研,2025年春招首周约60%职场人已经在工作中使用AI工具,明显高于去年同期的44%。 资料来源:头豹研究院,中泰证券研究所 通用场景之二:AI Coding大幅提升编程效率,用户数快速上升 ◼Cursor是AI驱动的代码编辑器,能够无缝与VS Code集成。通过先提供新用户2000次代码免费生成功能,再转化付费的方式,目前Cursor已经拥有超过36万名个人开发者。个人用户每月支付20-40美元,平均合同价值为276美元,ARR从$1M到$100M仅用了不到两年时间。 ◼Github Copilot发布以来,帮助开发人员将Coding速度提高55%。随用户数超过1.5亿,GitHub也宣布将开设免费的GitHubCopilot服务,并将服务集成到了新版的VS Code中。新用户也可拥有每月2000次代码补全和50条聊天消息的免费额度。 资料来源:SACRA,Spearhead,中泰证券研究所 通用场景之三:AI搜索以Overviews形式落地,Perplexity AI等SaaS公司崛起 ◼AI搜索已经能够为用户提供精确的信息来源,大幅提升搜索效率。Google等搜索引擎提供了AI Overviews功能,通过综合来自多个来源的信息以提供更全面的摘要。这种方法让用户更广泛地了解搜索结果,无需点击多个链接。AI搜索公司Perplexity以对话形式为用户提供搜索的答案,每月处理约4亿次搜索查询。公司估值实现了24年初的5.2亿美元到年底90亿美元的快速增长。 ◼AI搜索也将赋能私域数据搜索。据Hebbia,Google仅索引了全球4%的数据。大部分的私有数据,如企业ERP、CRM或者OA系统中的各种数据未得到充分利用。 资料来源:Google,中泰证券研究所 资料来源:Crunchbase,Bloomberg,Datawrapper,中泰证券研究所 通用场景之四:AI营销重构传统营销模式,降本增效潜力初显 ◼AI营销通过数据智能、自动化和个性化技术,正在重构传统营销模式,成为企业降本增效、提升客户体验的核心工具。IDC预计GenAI在未来五年内将营销生产力提高40%以上的潜力。Applovin提供了提升ARPDAU、增加广告库存、获取App用户和增加应用内购买。 资料来源:Statista,中泰证券研究所 资料来源:Applovin,中泰证券研究所 通用场景之五:AI + ERP / HR等企业SaaS场景 ◼AI能够赋能B端SaaS软件,在企业通用领域提供AI能力。AI+ERP(如SAP、金蝶)产品能够实现对财务和运营数据的分析跟踪;AI+HR(如北森)产品能够赋能人力资源管理,在AI面试等场景实现降本增效。 资料来源:SAP,中泰证券研究所 资料来源:北森,中泰证券研究所 行业场景之一:医疗行业诊断/治疗跟踪、行政任务的各类流程自动化 ◼AI在医疗领域的应用涉及各部门的优化与效率提升。1)诊断辅助和医学图像分析:人工智能代理使用深度学习算法分析医学图像,以协助放射科医生检测异常并做出准确诊断;2)个性化治疗计划和预测分析:AI代理使用患者数据和医学文献制定针对个人患者需求和病史的个性化治疗计划;预测分析模型可预测疾病进展和治疗结果;3)药物发现和开发:人工智能代理通过分析大量数据集来识别潜在的候选药物、预测疗效并优化临床试验流程,从而加快药物发现;4)虚拟健康助手和患者监测:人工智能虚拟健康助手为患者提供实时指导、健康建议和提醒。人工智能代理还可以实现远程患者监测,以便尽早发