行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

2025年DeepSeek模型优势：算力、成本角度解读报告

信息技术2025-03-11王则可浙江大学发***

AI智能总结

DeepSeek模型优势：算力、成本角度解读

算力基本概念与发展

算力定义：对信息数据进行计算，实现目标结果的能力，包括信息计算力、数据存储力和网络运载力。
算力发展历程：从大脑、草绳算盘到计算机，再到大型机、PC、云计算和人工智能时代，算力需求逐步提升，人工智能时代面临算力不足挑战。

人工智能大模型算力估计

数据量与模型参数关系：数据量（D）需大于15倍模型参数量（N），万亿级模型需1.5×10^32数据量。
计算次数估计：万亿级模型计算次数约为1.5×10^25次。
成本估计：单张H800 GPU需174000天，1000张H800 GPU需174天。

大模型指导法则

Scaling Law：算力、数据集、模型参数越大，模型效果越好（Test Loss小）。
商业模式：OpenAI通过华尔街融资、购买GPU、训练大模型、提供模型服务实现循环发展。

国内人工智能发展模式

可行性分析：国内融资、GPU购买、AI人才、工业化低成本优势明显，但GPU出口受限。
策略：以DeepSeek为代表的国内大模型采取“战术穿插”策略，通过技术创新降低成本。

美国限制中国AI发展策略

禁令：禁止出口高端AI芯片（A100、H800等）、限制AI加速器互联带宽、禁止7nm工艺代工、限制光刻机出口。
后果：国内AI算力与国际差距扩大。

DeepSeek模型发展历程与优势

DeepSeek V1-V3：模型规模从7B到671B，采用MoE模型和MLA技术，降低计算量和存储需求。
DeepSeek V3成本：单次预训练成本为5.676万美元，远低于Llama 3.1。
核心技术：
- MoE：1共享专家+256路由专家，每个Token激活37B参数，降低计算量。
- MLA：低秩压缩KV，降低KV Cache存储需求，提升推理性能和成本效益。
- 自研轻量级框架：FP8训练、DualPipe计算通信重叠，提升算力密度。

DeepSeek与CUDA的关系

PTX技术：DeepSeek采用类似汇编的PTX指令，但未完全绕开CUDA，对国产硬件设计有作用。

DeepSeekV3未来展望

模型性能：咬住国外最先进大模型，成本优势明显。
算力挑战：算力受限下更难追赶，需突破工艺卡脖子。
预测：中国AI竞赛结果将取决于工业化水平，实现“战术穿插”和“火力覆盖”。

浙江大学计算机学院浙江大学人工智能协同创新中心王则可 2025年2月算力的基本概念什么算力？“对信息数据进行计算，实现目标结果的能力” 传统算力：信息计算力现代算力：信息计算力、数据存储力、网络运载力算力的发展原生算力：大脑（可处理复杂逻辑，但不能高速处理简单运算）外部算力工具：草绳、石子算盘计算机：算力提供者（可高速简单运算，不能处理复杂逻辑）计算机算力的发展 "I think there is a world market for maybe fivecomputers."（我想全世界只需要五台电脑） -ThomasWatson,IBM创始人，1943 大型机时代1940-1980 大型机时代：数字化未开始，算力需求潜力未发掘计算机算力的发展大型机时代：数字化未开始，算力需求潜力未发掘PC时代：一个应用只需一台电脑，算力够云计算时代：应用需要超过一台机器的算力，算力基本够人工智能时代：算力开始不足，需大量高性能AI加速器人工智能大模型算力估计人工智能大模型算力估计 1，数据量(D）> 15 *模型参数量（(N) 万亿模型（N）=1000*109=1012 ¥ 数据量(D) > 15 ＊ 1012= 1.5＊ 1013 2，计算次数C~6*N*D万亿模型计算次数C~6*N*D~1.5*1025 人工智能计算平台成本估计万亿大模型预训练系统成本估计条件：计算量 C～6*N*D～1.5*1025最低时间、成本估计单H800（25万）：1.5*1010秒（174000天）1000张H800（2.5亿）：1.5*107秒（174天）大模型指导法则ScalingLaw：富则火力覆盖大模型扩展规律（资本非常喜欢确定性故事）算力：算力越大（x轴），模型效果越好（TestLoss小）数据集：数据集越大（X轴），模型效果越好模型参数：参数越多（x轴），模型效果越好国际人工智能企业OpenAI的商业模式 OpenAI商业模式（循环以下四步） 1，华尔街融资例子：2019-21年融资20亿美元 2，购买最新GPU例子：购买2.5万A100GPU（英伟达挣钱） 3，用最新GPU训练性能领先的大模型例子：2023年出ChatGPT，垄断市场（290亿美元估值） 4，用训练的GPU给客户提供高质量模型服务例子：营收小、整体亏钱国内人工智能的发展模式、可行性分析国内人工智能商业模式（循环以下四步） 1，国内融资（亿美金）■可行性分析：资金没问题，无其优质生产力领域■2，购买最新GPU■可行性分析：美国可以发禁令3，用GPU训练性能领先的大模型■可行性分析：国内AI人才没问题4，用训练的GPU给客户提供高质量模型服务1可行性分析：国内做工业化低成本有绝对优势美国限制中国AI发展的策略国内人工智能商业模式（循环以下四步） 1，国内融资（亿美金）■可行性分析：资金没问题，无其优质生产力领域 ■2，购买最新GPU■可行性分析：美国可以发禁令 13，用GPU训练性能领先的大模型■可行性分析：国内AI人才没问题 4，用训练的GPU给客户提供高质量模型服务1可行性分析：国内做工业化低成本有绝对优势时代背景：算力卡脖子美国政府对我国的禁令现成成熟算力：2023年禁止出口高端AI芯片 A100、H00、H800、A800等数据中心GPU 运力：2022年限制AI加速器的互联带宽算力：2024年禁止台积电代工7nm工艺的国内芯片存力：2024年禁止HBM芯片光刻机：2024年限制荷兰ASML出口7nm光刻机到中国卡脖子后果：国国内AI优质算力有差距时刻DeepSeek等国内大模型的“上甘岭”日 “大模型” “上甘岭” DeepSeekV3公开的单次极低预训练成本 DeepSeek全部训练单次成本：5，576，000美元单张H800GPU每小时租赁成本：2美元 DeepSeekv3模型参数 MoE：1共享专家十256路由专家 MLA：低秩压缩 DeepSeekV3模型参数? 671B参数(GPT-3: 175B、GPT-4: 1.76T?) ■每个token激活37B参数(~5.5%)，降低计算量核心技术DeepSeekMoE：显著减少计算量3 核心技术DeepSeekMoE：显著减少计算量（穷则战术穿插）针对美国的算力禁令核心思想：1共享专家十+256路由专家，激活8个路由专家共享专家：捕获通用知识、降低知识余路由专家：量大、细粒度、灵活组合、方便知识表达结果：每个Token只要过360亿参数（Llama3.1要4050亿参数）DeepSeek. "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models", 2024 浙江大学核心技术MLA：Multi-HeadLatentAttentionZHEJIANG UNIVERSITY MLA：少许计算量换HBM空间（穷则战术穿插，已开源）针对美国的HBM芯片禁令（AI算力严重依赖高性能内存）核心思想：低秩压缩KV，显著降低推理时KVcache的存KV Cache for Generation (KB/Token)储空间需求DeepSeek-V2reducing KV cache by 93.3%结果：KVCache使用降低93.3%100Maximum Generation Throughput (Tokens/Sec)推理性能：显著提升DeepSeek 67BDeepSeek-V2576%ofmaximumthroughput推理成本：显著降低1000020000300004000050000 系统核心技术：自研轻量级框架 DualPipe DeepSeek其它方面的性能方面优化自研轻量级框架（充许系统极致性能优化）FP8训练（提升算力密度）DualPipe（通信、计算重叠度高）PTX优化绕开CUDA护城河（单独解读） DeepSeek有无绕开CUDA护城河？ DeepSeek论文 selects only 8 routed experts in practice, it can scale up this number to a maximum of 13 experts(4 nodes × 3.2 experts/node) while preserving the same communication cost. Overall, undersuch a communication strategy, only 20 SMs are sufficient to fully utilize the bandwidths of IBand NVLink. In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2)IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps, Thenumber of warps allocated to each communication task is dynamically adjusted according to theactual workload across all SMs. Similarly, during the combining process, (1) NVLink sending, handled by dynamically adjusted warps. In addition, both dispatching and combining kernelsoverlap with the computation stream, so we also consider their impact on other SM computationkernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions andauto-tune the communication chunk size, which significantly reduces-the use of.the L2 cacheand the interference to other SMs. PTX（ParallelThreadExecution）类英伟达汇编作用：C+十抽象较高，无法表达GPU内部硬件特性，PTX指令控制1）内存读写到L2、内存和2）GPU内部硬件引擎个人猜测：GPU的内存一致性模型做的差，故GPU计算和通信的内存一致性只能用PTX指令来保证结论：没绕开，更依赖CUDA；但对国产硬件设计有作用 DeepSeekV3未来展望 DeepSeek为代表的国内大模型咬住国外最先进大模型模型性能：不要指望全面优势，“城头变幻大王旗” 成本：低（战术穿插） 1算力受限，近元年咬住会更难（大家宽容些）突破工艺卡脖子，实现“战术穿插”十“火力覆盖” 中芯国际等硬核大厂突破工艺卡脖子1华为等算力公司提供高算力密度个人预测AI竞赛结果以中国的工业化水平，站着把AI的钱给挣了。 “健身可以让SB跟你好好说话”→ “突破模型、算力卡脖子可以让A国跟咋们好好说话” 本次讲座是科普性质有不严谨的地方敬请谅解！

点击免费查看完整报告