DeepSeek模型优势:算力、成本角度解读 浙江大学计算机学院 浙江大学人工智能协同创新中心 王则可 2025年2月 算力的基本概念浙江大学 ZHEJIANGUNIVERSITY 算力 ComputingPower 什么算力?“对信息数据进行计算,实现目标结果的能力” 传统算力:信息计算力 现代算力:信息计算力、数据存储力、网络运载力 算力的发展浙江大学 ZHEJIANGUNIVERSITY 大脑草绳、石子算盘、算筹计算器、计算机 原生算力:大脑(可处理复杂逻辑,但不能高速处理简单运算)外部算力工具: 草绳、石子 算盘 计算机:算力提供者(可高速简单运算,不能处理复杂逻辑) 计算机算力的发展 浙江大学 ZHEJIANGUNIVERSITY Ithinkthereisaworldmarketformaybefive computers (我想全世界只需要五台电脑) 大型机时代 ThomasWatsonIBM创始人,1943 1940 1980 大型机时代:数字化未开始,算力需求潜力未发掘 计算机算力的发展 浙江大学 ZHEJIANGUNIVERSITY 大型机时代PC时代云计算时代人工智能时代 1940198020002020 198020002020 大型机时代:数字化未开始,算力需求潜力未发掘PC时代:一个应用只需一台电脑,算力够 云计算时代:应用需要超过一台机器的算力,算力基本够 人工智能时代:算力开始不足,需大量高性能AI加速器 人工智能大模型算力估计 浙江大学 ZHEJIANGUNIVERSITY 人工智能大模型算力估计 1,数据量D)15模型参数量(N 万亿模型(N)10001091012 数据量D151012151013 2,计算次数C6ND 万亿模型计算次数C6ND151025 OpenAIScalingLawsforNeuralLanguageModels2020 人工智能计算平台成本估计 算力存力运力 算力每秒显存运力生态政策风险成本 华为910B320T32101432GB240GBs较好无12万英伟达H8001000T101580GB900GBs好25万 万亿大模型预训练系统成本估计 条件:计算量C6ND151025 最低时间、成本估计 单H800(25万):151010秒(174000天) 1000张H800(25亿):15107秒(174天) 浙江大学 ZHEJIANGUNIVERSITY 大模型指导法则ScalingLaw:富则火力覆盖浙江大学 ZHEJIANGUNIVERSITY 算力数据集模型参数量 6LD541013009556LN8810130076 39 48 36 40 Loss 33 32 TestI 30 LCmin231080050 107105103101101 27 10 24 109105107105 ComputeDatasetSizeParameters PFdaysnonembeddingtokensnonembedding 大模型扩展规律(资本非常喜欢确定性故事) 算力:算力越大(x轴),模型效果越好(TestLoss小)数据集:数据集越大(X轴),模型效果越好模型参数:参数越多(x轴),模型效果越好 国际人工智能企业OpenAI的商业模式 浙江大学 ZHEJIANGUNIVERSITY OpenAI商业模式(循环以下四步) 1,华尔街融资OpenAI 例子:201921年融资20亿美元 2,购买最新GPU 例子:购买25万A100GPU(英伟达挣钱) 3,用最新GPU训练性能领先的大模型 例子:2023年出ChatGPT,垄断市场(290亿美元估值) 4,用训练的GPU给客户提供高质量模型服务 例子:营收小、整体亏钱 国内人工智能的发展模式、可行性分析 浙江大学 ZHEJIANGUNIVERSITY 国内人工智能商业模式(循环以下四步)1,国内融资(亿美金) 可行性分析:资金没问题,无其优质生产力领域 2,购买最新GPU 可行性分析:美国可以发禁令 3,用GPU训练性能领先的大模型 可行性分析:国内AI人才没问题4,用训练的GPU给客户提供高质量模型服务 1可行性分析:国内做工业化低成本有绝对优势 美国限制中国AI发展的策略浙江大学 ZHEJIANGUNIVERSITY 国内人工智能商业模式(循环以下四步)1,国内融资(亿美金) 可行性分析:资金没问题,无其优质生产力领域 2,购买最新GPU 可行性分析:美国可以发禁令 13,用GPU训练性能领先的大模型 可行性分析:国内AI人才没问题4,用训练的GPU给客户提供高质量模型服务 1可行性分析:国内做工业化低成本有绝对优势 时代背景:算力卡脖子 浙江大学 ZHEJIANGUNIVERSITY NvidiaAMDChipExport USImposesAlChipExport RestrictionstoChina 美国政府对我国的禁令 现成成熟算力:2023年禁止出口高端AI芯片 A100、H00、H800、A800等数据中心GPU 运力:2022年限制AI加速器的互联带宽 算力:2024年禁止台积电代工7nm工艺的国内芯片 存力:2024年禁止HBM芯片 光刻机:2024年限制荷兰ASML出口7nm光刻机到中国 卡脖子后果:国国内AI优质算力有差距 算力每秒 显存 华为910B 320T321014 32GB 英伟达H800 1000T1015 80GB 运力生态政策风险成本 240GBs较好无12万 900GBs好有25万 MachineLearningHardware乡EPOCHAI PerformanceattensorFP16TFLOPs 8k NVIDIAGB200NVL2 NVIDIAB100 浙江大学 ZHEJIANGUNIVERSITY 800 NVIDIAH100SXM580GBANVICIAGH200NVIDIAH200SXM NVIDIAH10OPCIe GoogleTPUy5p NVIDIAAB0OActioR QoogleTPUvte0 NVIDIAGeForceRTX3090TI 100MTT400Q GoogleTPUv2MetaMTIAv1 20 MetaMTIAv2 20182019202020212022202320242025 Releasedate CCBYepochai DeepSeek等国内大模型的“上甘岭”日时刻 浙江大学 ZHEJIANGUNIVERSITY “大模型”“上甘岭” 国际OpenAI 大资金、大算力、大模型范弗利特弹药量(地毯轰炸) 国内 deepseekQwen AI算法与系统协同深度优化反斜面坑道(战术穿插) DeepSeekV3公开的单次极低预训练成本 浙江大学 ZHEJIANGUNIVERSITY 发布时间GPU时小时训练成本美元 Llama312024年7月3110762107 DeepSeekv32024年12月2810656106 DeepSeek全部训练单次成本:5,576,000美元 单张H800GPU每小时租赁成本:2美元 DeepSeek发展历程:穷则战术穿插 浙江大学 ZHEJIANGUNIVERSITY 模型指标DeepSeekV1DeepSeekV2DeepSeekV3Llama31 2024年1月 2024年6月 2024年12月 2024年7月 2T 81T 148T 15T 7B、67B 稠密 236B激活21B MoE2160 671B激活37B MoE1256 405B 稠密 GQA MLA MLA NA 4K 128K 128K 128K 3006K 1728K 2788M 3084M 发布时间 训练Token 模型规模 MoE模型 注意力技术 上下文长度训练成本 GPUHours DeepSeekv3模型参数 浙江大学 ZHEJIANGUNIVERSITY DeepSeekMoE 00000000 TransformerBlockL FeedForwardNetwork OutputHiddenhSharedExpert 00000 MoE:1共享专家十256路由专家 L61层RMSNorm RouterlITopK 00000000InputHiddenu MultiHeadLatentAttentionMLA CachedDuringInference Attention OutputHiddenuQOQ0000 MultiHeadAttention RMSNorm kcwcotenab ka MLA:低秩压缩 apply 0000Latentc InputHiddenh00000000 DeepSeekV3模型参数 671B参数GPT3175B、GPT4176T 每个token激活37B参数55,降低计算量 核心技术DeepSeekMoE:显著减少计算量 浙江大学 3 00000000RoutedExpert OutputHiddenhSharedExpert ZHEJIANGUNIVERSITY NN RouterdililTopKr 00000000InputHiddenu 核心技术DeepSeekMoE:显著减少计算量(穷则战术穿插) 针对美国的算力禁令 核心思想:1共享专家十256路由专家,激活8个路由专家 共享专家:捕获通用知识、降低知识余 路由专家:量大、细粒度、灵活组合、方便知识表达 结果:每个Token只要过360亿参数(Llama31要4050亿参数) DeepSeekDeepSeekMoETowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels2024 核心技术MLA:MultiHeadLatentAttention 浙江大学 ZHEJIANGUNIVERSITY CachedDuringInference MultiHeadAttentionMHAGroupedQueryAttentionGQAMultiQueryAttentionMQAMultiHeadLatentAttentionMLA falues projection tev LatentKV Querie MLA:少许计算量换HBM空间(穷则战术穿插,已开源) 针对美国的HBM芯片禁令(AI算力严重依赖高性能内存) 核心思想:低秩压缩KV,显著降低推理时KVcache的存KVCacheforGenerationKBToken 储空间需求 reducingKVcacheby933 DeepSeekV2 结果:KVCache使用降低933100200300400 推理性能:显著提升 推理成本:显著降低 MaximumGenerationThroughputTokensSec DeepSeek67B 576ofmaximumthroughput DeepSeekV2 1000020000300004000050000 系统核心技术:自研轻量级框架 浙江大学 ZHEJIANGUNIVERSITY DualPipe ComputationMLPBAMLPWAMLPFAATTNBATTNWAATTNFA CommunicationDISPATCHFADISPATCHBACOMBINEFAPPCOMBINEB ForwardchunkBackwardchunk DeepSeek其它方面的性能方面优化 自研轻量级框架(充许系统极致性能优化)FP8训练(提升算力密度)DualPipe(通信、计算重叠度高) PTX优化绕开CUDA护城河(单独解读) DeepSeek有无绕开CUDA护城河? 浙江大学 ZHEJIANGUNIVERSITY DeepSeek论文 ssemblvllkePTXprosral selectsonly8routedexpertsinpracticeitcanscaleupthisnumbertoamaximu