行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

AI+专题系列点评（十七）：DeepSeek发布第二代MoE模型，降本增效有望加速AI应用普及

信息技术2024-05-14吴鸣远华创证券刘***

AI智能总结

幻方量化AI公司DeepSeek-V2开源大模型发布及市场影响

模型概述与性能

DeepSeek-V2，幻方量化旗下的AI公司于2024年5月6日正式开源，具备出色的多语言综合能力，中文能力与GPT-4-Turbo、文心4.0等顶级闭源模型相匹敌，英文能力则与LLaMA3-70B并肩，领先于其他MoE架构模型如Mixtral 8x22B。在知识、数学、推理、编程等多个维度测试中排名靠前。

成本效益分析

成本优化：DeepSeek-V2采用MoE架构，大幅度降低API调用成本，每百万tokens输入仅需1元、输出2元（32K上下文），相比GPT-4-Turbo近乎便宜了一个数量级。

技术创新与效率提升

模型架构革新：摒弃传统Dense或Sparse结构，引入MLA（Multi-head Latent Attention）架构，结合自研的Sparse结构DeepSeekMoE，显著减少计算量和推理显存需求。这一创新使得DeepSeek-V2在同等参数量下，性能达到或超越了70B-110B的Dense模型，但显存消耗仅为同类模型的1/5至1/100。

实际部署性能

高效部署：在实际部署中，DeepSeek-V2能够在8卡H800机器上实现每秒超过10万tokens的输入吞吐量以及每秒超过5万tokens的输出，展现出卓越的处理速度和效能。

投资建议与风险提示

市场潜力：鉴于DeepSeek-V2的高性价比和全面性能，预计其将吸引更多开发者和企业的关注，加速AI生成内容（AIGC）应用的落地和普及。
投资方向：推荐关注AI大模型应用领域的企业，包括但不限于安全、办公、法律、医疗、教育、金融、电商、数据处理、媒体等细分行业。
风险考量：强调商业化表现的不确定性、用户付费意愿、以及行业技术更新速度对投资的影响。

结论

DeepSeek-V2的发布标志着幻方量化在AI领域的技术创新和开放共享，不仅提升了AI生成内容的质量和效率，还通过显著的成本优势加速了AI应用的市场化进程，为相关行业带来了新的发展机遇和投资机会。

AI+专题系列点评（十七）：DeepSeek发布第二代MoE模型，降本增效有望加速AI应用普及

事项： 2024年5月6日，幻方量化宣布旗下AI公司DeepSeek正式开源第二代MoE模型：DeepSeek-V2。该模型能力表现出色，中文综合能力与GPT-4-Turbo，文心4.0等闭源模型处于同一梯队。英文综合能力与LLaMA3-70B同处第一梯队。其知识、数学、推理、编程能力也位居前列。该模型性价比显著，每百万tokens输入1元、输出2元（32K上下文），价格仅为GPT-4-Turbo的近百分之一。其价格的降低有望吸引更多开发者和企业的入局，加速AIGC应用的落地和推广。评论：大模型主流榜单中DeepSeek-V2各项均表现出色：DeepSeek-V2在中文综合能力评测（AlignBench）中位列开源模型之首，并与GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。在英文综合能力评测（MT-Bench）中，它与LLaMA3-70B并列第一，超过了Mixtral 8x22B。它在知识、数学、推理、编程等评测中也排名靠前，并支持128K上下文窗口。 DeepSeek API调用成本大幅压缩：DeepSeek-V2采用MoE架构，成本大幅降低。其API定价远低于GPT-4-Turbo，仅为GPT-4-Turbo的近百分之一。 DeepSeek-V2在中文能力评测中表现出色，位于全球模型的第一梯队，同时具备极高的性价比。模型结构创新，大幅减少计算量和推理显存：DeepSeek-V2不采用传统的Dense或Sparse结构，而是创新性地提出了MLA（Multi-head Latent Attention）架构，并结合自研的Sparse结构DeepSeekMoE，显著降低了计算量和推理显存需求。以236B总参数和21B激活参数，实现了相当于70B-110B Dense模型的性能，同时显存消耗仅为同级别Dense模型的1/5至1/100。在实际部署中，DeepSeek-V2在8卡H800机器上，每秒输入吞吐量超过10万tokens，输出超过5万tokens。投资建议：AI大模型本质应落脚垂类应用，国内大模型正快速追赶美国先进水平，中文大模型的突破有望为下游AI应用注入新的活力，看好AI+应用产品力与商业化落地进程。建议关注以下标的：AI+应用侧：1）安全：永信至诚、深信服；2）办公：金山办公、福昕软件；3）法律：金桥信息、华宇软件、通达海；4）医疗：润达医疗；5）教育：佳发教育、欧玛软件、新开普；6）金融：同花顺、新致软件；7）邮箱：彩讯股份；8）传媒：掌阅科技、华策影视； 9）数据：海天瑞声；10）电商：焦点科技；11）OA：致远互联、泛微网络； 12）ERP：用友网络、金蝶国际。算力侧：1）算力基础：润泽科技、亚康股份、海光信息、寒武纪、龙芯中科；2）服务器：中科曙光、浪潮信息、紫光股份、神州数码、拓维信息。风险提示：商业化后表现不及预期，用户付费意愿低，行业技术迭代速度较快。一、DeepSeek-V2降本增效综合性能优异（一）大模型主流榜单中DeepSeek-V2各项均表现出色 DeepSeek-V2中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队。英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral 8x22B，在知识、数学、推理、编程等榜单结果也位居前列。此外其支持128K上下文窗口。图表1各大模型API或Chat版本效果对比（二）DeepSeekAPI调用成本大幅压缩 DeepSeek-V2采用MoE架构，成本大幅优化。DeepSeek-V2 API的定价为每百万tokens输入1元、输出2元（32K上下文），而GPT4-Turbo API的定价为每百万输入72元、输出217元，DeepSeek-V2价格仅为GPT-4-Turbo的近百分之一。就中文能力来看，DeepSeek-V2在全球模型中性能处于第一档的位置，而成本是最低的，突出其性价比优势。图表2不同大模型API价格对比图表3不同大模型的中文能力和API价格对比（三）模型结构创新，大幅减少计算量和推理显存 DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行了全方位的创新，提出了媲美MHA的MLA（Multi-head Latent Attention）架构，大幅减少计算量和推理显存；自研Sparse结构DeepSeekMoE进一步将计算量降低到极致，两者结合最终实现模型性能跨级别的提升。根据DeepSeek估计，DeepSeek-V2以236B总参数、21B激活，大致达到70B~110B Dense的模型能力，同时消耗的显存（KV Cache）只有同级别Dense模型的1/5~1/100，每token成本大幅降低。实际部署在8卡H800机器上，输入吞吐量超过每秒10万tokens，输出超过每秒5万tokens。图表4 DeepSeek的训练费用和推理效率

点击免费查看完整报告