AI智能总结
Deepseek对中国算力产业的影响 2025年2月 目录 DeepSeek的技术突破与市场定位 1 CONTENT DeepSeek驱动算力需求变革 2 算力产业链的重构 3 DeepSeek爆火--C端:Deepseek全球破圈,成为用户规模增长最快的移动AI应用 DeepSeek爆火--B端:科技巨头积极拥抱DeepSeek DeepSeek明星产品:DeepSeek的LLM模型分为三个版本:基座模型V3、强化推理版R1-Zero、泛化推理版R1 DeepSeek爆火的原因:一流的性能表现、大幅降低的算力成本、开源模式 一流的性能表现:DeepSeek-V3性能对齐海外领军闭源模型 一流的性能表现:DeepSeek-R1性能对标OpenAI-o1正式版 •DeepSeek-R1性能比肩OpenAI-o1。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。•R1在2024年AIME测试中取得了79.8%的成绩,与OpenAI o1的79.2%水平相当。 在MATH-500基准测试中,DeepSeek-R1以97.3%的成绩略微超越了o1的96.4%。在编程领域,该模型在Codeforces平台上表现优异。 大幅降低的算力成本:训练算力下降90% DeepSeek-V3和R1模型不仅性能出色,训练成本也极低。V3模型仅用2048块H800 GPU训练2个月,消耗278.8万GPU小时。相比之下,Llama3-405B消耗了3080万GPU小时,是V3的11倍。按H800 GPU每小时2美金计算,V3的训练成本仅为557.6万美金,而同等性能的模型通常需要0.6-1亿美金。R1模型在V3基础上,通过引入大规模强化学习和多阶段训练,进一步提升了推理能力,成本可能更低。 API定价下降89%(V3)、96%(R1) 开源大模型:打破OpenAI等闭源模型生态 DeepSeek不仅开源了R1-Zero和R1两个671B模型,还通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。同时,DeepSeek还修改了产品协议,支持用户进行“模型蒸馏”,即允许用户无限制商用,鼓励蒸馏(用R1输出结果训练其他模型),尽可能降低用户使用壁垒,全球范围出圈和更容易建立起广泛繁荣的用户生态。 DeepSeekV3与R1模型实现了开源,采用MIT协议。这产生多方面影响: •对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了OpenAI与Anthropic等高级闭源模型的封闭生态。DeepSeekR1在多个测试指标中对标OpenAIo1,通过模型开源,也将大模型平均水平提升至类OpenAI o1等级。 •对下游生态:优质的开源模型可更好用于垂类场景,即使用户针对自身需求蒸馏,或用自有数据训练,从而适合具体下游场景;此外,模型训推成本降低,将带来使用场景的普及,带动AIGC、端侧等供给和需求。 目录 DeepSeek的技术突破与市场定位 1 CONTENT DeepSeek驱动算力需求变革 2 算力产业链的重构 中国智能算力市场规模持续增长,算力中心从训练侧向推理侧转移 训练算力头部集中,推理算力爆发式增长 训练算力仍有空间和前景✓头部企业会持续进行教师模型的训练:模型蒸馏的前提是有一个好的教师模型,字节、阿里、百度等已经明确会持续加大投入;24年H2有些停滞的大模型训练近期 已经重启 ✓各模型厂商会借鉴deepseek的优化方法如FP8精度训练、跨节点通信等,与自身模型训练结合,探索更高效的模型训练方法✓多模态的模型对算力的消耗会是近十倍的增长 推理算力爆发式增长:杰文斯悖论在推理侧上演,开源模型和较低的推理成本,有助于应用的繁荣,助推推理算力增长 头部企业仍持续加码大模型训练,追求更高性能的AGI目标。•阿里:未来3年的AI infra投资,超过去10年的infra投资 •字节:24年资本开支800亿元,接近百度、阿里、腾讯三家的总和(约1000亿元)。25年,字节资本开支有望达到1600亿元,其中约900亿元将用于AI算力的采购,700亿元用于IDC基建以及网络设备。•百度:在2月11日的阿联酋迪拜World Governments Summit 2025峰会上,百度创始人李彦宏提到,百度需要继续在芯片、数据中心和云基础设施上加大投入,目的是为了开发下一代模型。•硅谷四大科技巨头(谷歌、微软、Meta、亚马逊)2025年合计资本开支超3,000亿美元,重点投向AI数据中心建设。 模型轻量化催生端侧算力的崛起 DeepSeek通过知识蒸馏技术,将大模型压缩至轻量化版本,使其能够在端侧设备上高效运行。 数据安全与隐私计算刚需•本地化部署需求(如医疗数据脱敏处理) 推动隐私计算技术发展,2024年数据治理市场规模超50亿元。 一体机等端侧算力市场扩容•国产deepseek一体机疯狂上新:三大电 信运营商、浪潮、壁仞、京东云、联想、优刻得、宝德、华鲲振宇、超聚变等均推出基于不同国产芯片的deepseek一体机•工业质检、自动驾驶等场景需求推动边缘AI服务器出货量增长,2025年市场规模预计突破200亿元。 从“算力堆砌”到“算效优化”的产业转型 DeepSeek提出的“四两拨千斤”的技术路径推翻了统治了2023年-2024年的全球大模型产业的“暴力美学”逻辑,2025年再次进入算法创新阶段 算力、数据、算法的三角创新体系,在动态循环中再次进入算法创新阶段: •2022年:算法创新为主,ChatGPT发布,引发Transformer架构的风潮迭起 •2023年:数据创新为主,数据合成、数据标注等成为高质量数据集建设的热点方向 •2024年:算力创新为主,算力迈向超万卡时代,算力运营商等产业新物种诞生 •2025年:再次进入算法创新阶段 算效优化的必要性 算力堆砌的传统模式 随着技术发展和应用深化,算效优化成为产业转型的关键方向,通过提高算力的利用效率,降低能耗和成本 大模型训练和应用依赖于大规模的算力堆砌,通过不断增加硬件资源来满足算力需求 目录 DeepSeek的技术突破与市场定位 1 CONTENT DeepSeek驱动算力需求变革 2 算力产业链的重构 3 芯片 大模型 智算中心 AI应用 DeepSeek通过PTX优化等创新技术,降低了模型训练对NV芯片的依赖,推动国产算力的应用落地 CUDA生态的封闭性导致其跨硬件平台兼容性差,对国产GPU的适配存在较大困难。PTX算力优化经验大幅降低了对高端GPU的依赖,对国产GPU的底层接口适配有一定帮助(需要重新设计工具链,短期内难以实现无缝迁移) 截至2025年2月18日,DeepSeek已与18家国产AI芯片企业完成适配,包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能和芯动力等 私有化部署及端侧小模型大量涌现,为国产芯片在实际场景的应用及试错提供了大量机会,为国产芯片的设计、性能提升等提供空间 •英伟达H800芯片互联带宽相比H100被阉割,为弥补这一缺陷,DeepSeek借助PTX手动优化跨芯片通信,保障数据传输效率。•PTX是CUDA编译的中间代码,处于高级编程语言(如CUDA C/C++)和底层机器码 (SASS)之间,起到在CUDA和最终机器码之间的桥梁作用。•借助PTX,开发者能够直接对GPU的寄存器分配、线程调度等硬件级操作进行控制,实现细粒度的性能优化。在多GPU协同训练场景中,可通过PTX手动调整跨芯片通信效率,提升整体训练效能。 DeepSeek采用FP8混合精度训练取得较好效果,国内芯片企业亟待增强对原生FP8支持 目前DS原生训练和推理用的是FP32、BF16和FP8,三种格式,也是DS团队探索出来效率最高的计算方式。如果不是原生支持FP8,而是需要通过其他计算精度的转译,至少损失30%性能和20%的智商 DeepSeek采用FP8混合精度训练取得较好效果:•GPU训练时间减少40%•预训练成本降至仅278.8万H800 GPU小时•训练总费用为557.6万美元,比同类模式便宜约10倍 目前国内有200多家AI芯片公司,原生支持FP8计算格式的AI芯片只有3款,同时支持三种计算格式的国产AI芯片公司只有1款。 •在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操作)均以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并输出BF16或FP32格式的结果。如下图所示,与线性算子(Linear operator)相关的三个GEMM运算——前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯度反向传播(Wgrad)——都采用FP8精度执行。•对以下模块维持原有精度(如BF16或FP32):嵌入模块(embedding module)、输出头(output head)、混合专家门控模块(MoE gating modules)、标准化算子(normalization operators)以及注意力算子(attention operators)。(尽管FP8格式具有计算效率优势,但由于部分算子对低精度计算较为敏感,仍需保持更高计算精度) 智算中心分为三类 推理类智算中心爆发增长,超大规模智算中心建设加快 算力包销合同主题分强、弱两类,市场上更多的是弱主体:•强主体:各个参与方资质和信誉主题都很强。央国企、A股上市公司承建、金融机构垫资、互联网大厂包销,这种主要是H系列为主,风险相对可控,互联网大厂 可以用来做B类或C类。 -21-•弱主体:相对于强主体,出资方、承建方、包销方相对来说资质弱一些,比如包销方是一些AI大模型创业公司、创新型实验室或者,这类24年下半年已经开始毁约,风险非常高,H系列租金每个月6~8w/台。这类的算力中心风险非常大,需要注意,这类算力使用方,未来多转向C类算力租赁。 中国大模型主要有两类玩家 Deepseek发布后科技大厂:拥抱DeepSeek,同时跟进类似的自研产品 •投资加大:前文已论述•产品:科技大厂一方面拥抱DeepSeek,一方面跟进类似的自研产品 国际大厂也加快了产品的推陈出新 OpenAI连续官宣GPT-4.5在几周内上线,GPT-5在几个月内上线,及模型路线规模的调整 Deepseek发布后AI创业企业:从参数竞争到进入理性期 AI六小虎的策略变化•仍坚守大模型预训练,但技术路线分化: ✓智谱(引入强化学习和多模态,注重B端市 场)✓月之暗面(长文本)✓阶跃星辰(多模态) •转向细分领域:✓零一万物与阿里合作产业实验室,放弃超级 大模型研发✓百川智能专注医疗赛道✓MiniMax布局海外市场 大模型领域迎来“安卓时刻”,大量AI应用将爆发式出现 回顾安卓与iOS应用的发展,安卓系统发布一年后,大量的安卓应用开始出现。现在的deepseek类似当初的安卓系统 •GitHub的Stars是项目在社区中受欢迎程度的直接指标,Fork则表示项目累计被用户拷贝的数量,两个指标均代表项目上线至今的关注度和用户喜爱度。DeepSeekV3和R1两个项目上线至今均不足2个月,但它们的累计Star和Fork均与上线时间更早的Llama接近,显著高于24年4月发布的Llama3,直接反映了开发者对DeepSeek开源模型的高认可度。•根据GitHub、Hugging Face社区上的开发者实测,经过R1微调的80亿参数小模型可以在个人笔记本中运行,本地化部署门槛显著下降,应用的开发将迎来百花齐