事项: 2024年5月6日,幻方量化宣布旗下AI公司DeepSeek正式开源第二代MoE模型:DeepSeek-V2。该模型能力表现出色,中文综合能力与GPT-4-Turbo,文心4.0等闭源模型处于同一梯队。英文综合能力与LLaMA3-70B同处第一梯队。其知识、数学、推理、编程能力也位居前列。该模型性价比显著,每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一。其价格的降低有望吸引更多开发者和企业的入局,加速AIGC应用的落地和推广。 评论: 大模型主流榜单中DeepSeek-V2各项均表现出色:DeepSeek-V2在中文综合能力评测(AlignBench)中位列开源模型之首,并与GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。在英文综合能力评测(MT-Bench)中,它与LLaMA3-70B并列第一,超过了Mixtral 8x22B。它在知识、数学、推理、编程等评测中也排名靠前,并支持128K上下文窗口。 DeepSeek API调用成本大幅压缩:DeepSeek-V2采用MoE架构,成本大幅降低。其API定价远低于GPT-4-Turbo,仅为GPT-4-Turbo的近百分之一。 DeepSeek-V2在中文能力评测中表现出色,位于全球模型的第一梯队,同时具备极高的性价比。 模型结构创新,大幅减少计算量和推理显存:DeepSeek-V2不采用传统的Dense或Sparse结构 , 而是创新性地提出了MLA(Multi-head Latent Attention)架构,并结合自研的Sparse结构DeepSeekMoE,显著降低了计算量和推理显存需求。以236B总参数和21B激活参数,实现了相当于70B-110B Dense模型的性能,同时显存消耗仅为同级别Dense模型的1/5至1/100。在实际部署中,DeepSeek-V2在8卡H800机器上,每秒输入吞吐量超过10万tokens,输出超过5万tokens。 投资建议:AI大模型本质应落脚垂类应用,国内大模型正快速追赶美国先进水平,中文大模型的突破有望为下游AI应用注入新的活力,看好AI+应用产品力与商业化落地进程。建议关注以下标的:AI+应用侧:1)安全:永信至诚、深信服;2)办公:金山办公、福昕软件;3)法律:金桥信息、华宇软件、通达海;4)医疗:润达医疗;5)教育:佳发教育、欧玛软件、新开普;6)金融:同花顺、新致软件;7)邮箱:彩讯股份;8)传媒:掌阅科技、华策影视; 9)数据:海天瑞声;10)电商:焦点科技;11)OA:致远互联、泛微网络; 12)ERP:用友网络、金蝶国际。算力侧:1)算力基础:润泽科技、亚康股份、海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、神州数码、拓维信息。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、DeepSeek-V2降本增效综合性能优异 (一)大模型主流榜单中DeepSeek-V2各项均表现出色 DeepSeek-V2中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队。英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B,在知识、数学、推理、编程等榜单结果也位居前列。此外其支持128K上下文窗口。 图表1各大模型API或Chat版本效果对比 (二)DeepSeekAPI调用成本大幅压缩 DeepSeek-V2采用MoE架构,成本大幅优化。DeepSeek-V2 API的定价为每百万tokens输入1元、输出2元(32K上下文),而GPT4-Turbo API的定价为每百万输入72元、输出217元,DeepSeek-V2价格仅为GPT-4-Turbo的近百分之一。就中文能力来看,DeepSeek-V2在全球模型中性能处于第一档的位置,而成本是最低的,突出其性价比优势。 图表2不同大模型API价格对比 图表3不同大模型的中文能力和API价格对比 (三)模型结构创新,大幅减少计算量和推理显存 DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Multi-head Latent Attention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模型性能跨级别的提升。根据DeepSeek估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力,同时消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。 实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。 图表4 DeepSeek的训练费用和推理效率