CONFIDENTIAL Deepseek对中国算力产业的影响 2025年2月 1 目录 CONTENT DeepSeek的技术突破与市场定位 2 3 DeepSeek驱动算力需求变革算力产业链的重构 2 DeepSeek爆火C端:Deepseek全球破圈,成为用户规模增长最快的移动AI应用 超级app增长1亿用户所用时间App上线后同样天数DeepSeek与ChatGPT移动端全球DAU对比情况 3 DeepSeek爆火B端:科技巨头积极拥抱DeepSeek 4 DeepSeek明星产品:DeepSeek的LLM模型分为三个版本:基座模型V3、强化推理版R1Zero、泛化推理版R1 5 DeepSeek爆火的原因:一流的性能表现、大幅降低的算力成本、开源模式 高性能模型架构创新DeepSeek的模型架构创新,如MoE和FP8混合精度训练,大幅提升模型 性能和训练效率。 低成本实现高性能 通过算法创新和硬件优化, DeepSeek以低成本实现高性能,改变AI领域的竞争规则。 开源策略推动技术普及DeepSeek采用开源策略,降低AI技术门槛,促进全球开发者参与,推动技术快速普及和迭代。 6 一流的性能表现:DeepSeekV3性能对齐海外领军闭源模型 7 一流的性能表现:DeepSeekR1性能对标OpenAIo1正式版 8 DeepSeekR1性能比肩OpenAIo1。DeepSeekR1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。 R1在2024年AIME测试中取得了798的成绩,与OpenAIo1的792水平相当。在MATH500基准测试中,DeepSeekR1以973的成绩略微超越了o1的964。在编程领域,该模型在Codeforces平台上表现优异。 大幅降低的算力成本:训练算力下降90 DeepSeekV3和R1模型不仅性能出色,训练成本也极低。V3模型仅用2048块H800GPU训练2个月,消耗2788万GPU小时。相比之下,Llama3405B消耗了3080万GPU小时,是V3的11倍。按H800GPU每小时2美金计算,V3的训练成本仅为5576万美金,而同等性能的模型通常需要061亿美金。R1模型在V3基础上,通过引入大规模强化学习和多阶段训练,进一步提升了推理能力,成本可能更低。 9 API定价下降89(V3)、96(R1) 10 开源大模型:打破OpenAI等闭源模型生态 DeepSeekV3与R1模型实现了开源,采用MIT协议。这产生多方面影响: 对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了OpenAI与Anthropic等高级闭源模型的封闭生态。DeepSeekR1在多个测试指标中对标OpenAIo1,通过模型开源,也将大模型平均水平提升至类OpenAIo1等级。 对下游生态:优质的开源模型可更好用于垂类场景,即使用户针对自身需求蒸馏,或用自有数据训练,从而适合具体下游场景;此外,模型训推成本降低,将带来使用场景的普及,带动AIGC、端侧等供给和需求。 DeepSeek不仅开源了R1Zero和R1两个671B模型,还通过DeepSeekR1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1mini的效果。同时,DeepSeek还修改了产品协议,支持用户进行“模型蒸馏”,即允许用户无限制商用,鼓励蒸馏(用R1输出结果训练其他模型),尽可能降低用户使用壁垒,全球范围出圈和更容易建立起广泛繁荣的用户生态。 11 1 目录 CONTENT DeepSeek的技术突破与市场定位 2 3 DeepSeek驱动算力需求变革算力产业链的重构 12 中国智能算力市场规模持续增长,算力中心从训练侧向推理侧转移 2020 41 1460 1037 725 417 260 中国智能算力规模及预测,(FP16) 202220232024202520262027 智能算力 100 90 80 70 60 50 40 30 20 10 0 中国人工智能服务器工作负载预测,20222027 41 58 65 67 70 72 59 42 35 33 30 28 202220232024202520262027 推理训练 13 训练算力头部集中,推理算力爆发式增长 训练算力仍有空间和前景 头部企业会持续进行教师模型的训练:模型蒸馏的前提是有一个好的教师模型,字节、阿里、百度等已经明确会持续加大投入;24年H2有些停滞的大模型训练近期已经重启 各模型厂商会借鉴deepseek的优化方法如FP8精度训练、跨节点通信等,与自身模型训练结合,探索更高效的模型训练方法 多模态的模型对算力的消耗会是近十倍的增长 推理算力爆发式增长:杰文斯悖论在推理侧上演,开源模型和较低的推理成本,有助于应用的繁荣,助推推理算力增长 头部企业仍持续加码大模型训练,追求更高性能的AGI目标。 阿里:未来3年的AIinfra投资,超过去10年的infra投资 字节:24年资本开支800亿元,接近百度、阿里、腾讯三家的总和(约1000亿元)。25年,字节资本开支有望达到1600亿元,其中约900亿元将用于AI算力的采购,700亿元用于IDC基建以及网络设备。 百度:在2月11日的阿联酋迪拜WorldGovernmentsSummit2025峰会上,百度创始人李彦宏提到,百度需要继续在芯片、数据中心和云基础设施上加大投入,目的是为了开发下一代模型。 硅谷四大科技巨头(谷歌、微软、Meta、亚马逊)2025年合计资本开支超3000亿美元 ,重点投向AI数据中心建设。 “杰文斯悖论”指出成本下降将刺激资源需求更大增长 14 模型轻量化催生端侧算力的崛起 DeepSeek通过知识蒸馏技术,将大模型压缩至轻量化版本,使其能够在端侧设备上 高效运行。 数据安全与隐私计算刚需 本地化部署需求(如医疗数据脱敏处理)推动隐私计算技术发展,2024年数据治理市场规模超50亿元。 一体机等端侧算力市场扩容 国产deepseek一体机疯狂上新:三大电信运营商、浪潮、壁仞、京东云、联想、优刻得、宝德、华鲲振宇、超聚变等均推出基于不同国产芯片的deepseek一体机 工业质检、自动驾驶等场景需求推动边缘AI服务器出货量增长,2025年市场规模预计突破200亿元。 15 从“算力堆砌”到“算效优化”的产业转型 DeepSeek提出的“四两拨千斤”的技术路径推翻了统治了2023年2024年的全球大模型产业的“暴力美学”逻辑,2025年再次进入算法创新阶段 算力、数据、算法的三角创新体系,在动态循环中再次进入算法创新阶段: 2022年:算法创新为主,ChatGPT发布,引发 Transformer架构的风潮迭起 2023年:数据创新为主,数据合成、数据标注等成为高质量数据集建设的热点方向 2024年:算力创新为主,算力迈向超万卡时代,算力运营商等产业新物种诞生 2025年:再次进入算法创新阶段 算力堆砌的传统模式 大模型训练和应用依赖于大规模的算力堆砌,通过不断增加硬件资源来满足算力需求 算效优化的必要性 随着技术发展和应用深化,算效优化成为产业转型的关键方向,通过提高算力的利用效率,降低能耗和成本 16 1 目录 CONTENT DeepSeek的技术突破与市场定位 2 3 DeepSeek驱动算力需求变革算力产业链的重构 17 DeepSeek通过PTX优化等创新技术,降低了模型训练对NV芯片的依赖,推动国产算力的应用落地 芯片 智算中心 大模型 AI应用 CUDA生态的封闭性导致其跨硬件平台兼容性差,对国产GPU的适 配存在较大困难。PTX算力优化经验大幅降低了对高端GPU的依赖 ,对国产GPU的底层接口适配有一定帮助(需要重新设计工具链,短期内难以实现无缝迁移) DeepSeek通过PTX手动优化跨芯片通信 截至2025年2月18日,DeepSeek已与18家国产AI芯片企业完成适配,包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能和芯动力等 英伟达H800芯片互联带宽相比H100被阉割,为弥补这一缺陷,DeepSeek借助 PTX手动优化跨芯片通信,保障数据传输效率。 PTX是CUDA编译的中间代码,处于高级编程语言(如CUDACC)和底层机器码 (SASS)之间,起到在CUDA和最终机器码之间的桥梁作用。 借助PTX,开发者能够直接对GPU的寄存器分配、线程调度等硬件级操作进行控制 ,实现细粒度的性能优化。在多GPU协同训练场景中,可通过PTX手动调整跨芯片通信效率,提升整体训练效能。 私有化部署及端侧小模型大量涌现,为国产芯片在实际场景的应用及试错提供了大量机会,为国产芯片的设计、性能提升等提供空间 18 DeepSeek采用FP8混合精度训练取得较好效果,国内芯片企业亟待增强对原生FP8支持 芯片 智算中心 大模型 AI应用 DeepSeek采用FP8混合精度训练取得较好效果: GPU训练时间减少40 预训练成本降至仅2788万H800GPU小时 训练总费用为5576万美元,比同类模式便宜约10倍 目前DS原生训练和推理用的是FP32、BF16和FP8,三种格式,也是DS团队探索出来效率最高的计算方式。如果不是原生支持FP8,而是需要通过其他计算精度的转译,至少损失30性能和20的智商 目前国内有200多家AI芯片公司,原生支持FP8计算格式的AI芯片只有3款, 同时支持三种计算格式的国产AI芯片公司只有1款。 采用FP8数据格式的整体混合精度框架 在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操作)均以FP8精度实现 。这些GEMM操作接受FP8张量作为输入,并输出BF16或FP32格式的结果。如下图所示,与线性算子(Linearoperator)相关的三个GEMM运算前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯度反向传播(Wgrad)都采用FP8精度执行。 对以下模块维持原有精度(如BF16或FP32):嵌入模块(embeddingmodule)、输出头(outputhead)、混合专家门控模块(MoEgatingmodules)、标准化算子(normalizationoperators)以及注意力算子(attentionoperators)。(尽管FP8格式具有计算效率优势,但由于部分算子对低精度计算较为敏感,仍需保持更高计算精度) 国内芯片对三种计算精度的支持情况 国内AI芯片企业200多家 原生支持 FP8的3家 同时原生支持FP8、BF16、 FP32的1家 19 智算中心分为三类 定位 功能 规模 芯片 芯片 智算中心 大模型 AI应用 预训练 用于训练超大参数量的原创教师大模型,如移动的九天大模型、阿里的通义千问等 万卡以上 H200、B200等最先进的芯片或国产高端芯片(针对有强信创需求的企业) 后训练 用于学生大模型的调优,训练行业化、客制化大 模型 几十台到几百台为主 A100A800、 H100H800,或者采购部分高端国产卡 推理 用于推理的算力中心,针对模型在企业端现实场景的实际应用 大小不等 利旧原有设备或者经营不善的B类30904090或910A、 910B及其他国产卡 A类 B类 C类 20 推理类智算中心爆发增长,超大规模智算中心建设加快 芯片 智算中心 大模型 AI应用 智算中心 市场影响 A类 建设速度不减:头部科技大厂仍计划大量投资;超前建设的需要;下一轮AI技术的涌现(如多模态等)仍需要十倍左右的算