您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:2025年DeepSeek模型优势:算力、成本角度解读报告 - 发现报告

2025年DeepSeek模型优势:算力、成本角度解读报告

信息技术2025-03-11王则可浙江大学发***
AI智能总结
查看更多
2025年DeepSeek模型优势:算力、成本角度解读报告

浙江大学计算机学院 浙江大学人工智能协同创新中心 王则可 2025年2月 算力的基本概念 什么算力?“对信息数据进行计算,实现目标结果的能力” 传统算力:信息计算力现代算力:信息计算力、数据存储力、网络运载力 算力的发展 原生算力:大脑(可处理复杂逻辑,但不能高速处理简单运算) 外部算力工具: 草绳、石子算盘计算机:算力提供者(可高速简单运算,不能处理复杂逻辑) 计算机算力的发展 "I think there is a world market for maybe fivecomputers."(我想全世界只需要五台电脑) -ThomasWatson,IBM创始人,1943 大型机时代1940-1980 大型机时代:数字化未开始,算力需求潜力未发掘 计算机算力的发展 大型机时代:数字化未开始,算力需求潜力未发掘PC时代:一个应用只需一台电脑,算力够云计算时代:应用需要超过一台机器的算力,算力基本够人工智能时代:算力开始不足,需大量高性能AI加速器 人工智能大模型算力估计 人工智能大模型算力估计 1,数据量(D)> 15 *模型参数量((N) 万亿模型(N)=1000*109=1012 ¥ 数据量(D) > 15 * 1012= 1.5* 1013 2,计算次数C~6*N*D万亿模型计算次数C~6*N*D~1.5*1025 人工智能计算平台成本估计 万亿大模型预训练系统成本估计 条件:计算量 C~6*N*D~1.5*1025最低时间、成本估计单H800(25万):1.5*1010秒(174000天)1000张H800(2.5亿):1.5*107秒(174天) 大模型指导法则ScalingLaw:富则火力覆盖 大模型扩展规律(资本非常喜欢确定性故事) 算力:算力越大(x轴),模型效果越好(TestLoss小)数据集:数据集越大(X轴),模型效果越好模型参数:参数越多(x轴),模型效果越好 国际人工智能企业OpenAI的商业模式 OpenAI商业模式(循环以下四步) 1,华尔街融资例子:2019-21年融资20亿美元 2,购买最新GPU例子:购买2.5万A100GPU(英伟达挣钱) 3,用最新GPU训练性能领先的大模型例子:2023年出ChatGPT,垄断市场(290亿美元估值) 4,用训练的GPU给客户提供高质量模型服务 例子:营收小、整体亏钱 国内人工智能的发展模式、可行性分析 国内人工智能商业模式(循环以下四步) 1,国内融资(亿美金)■可行性分析:资金没问题,无其优质生产力领域■2,购买最新GPU■可行性分析:美国可以发禁令3,用GPU训练性能领先的大模型■可行性分析:国内AI人才没问题4,用训练的GPU给客户提供高质量模型服务1可行性分析:国内做工业化低成本有绝对优势 美国限制中国AI发展的策略 国内人工智能商业模式(循环以下四步) 1,国内融资(亿美金)■可行性分析:资金没问题,无其优质生产力领域 ■2,购买最新GPU■可行性分析:美国可以发禁令 13,用GPU训练性能领先的大模型■可行性分析:国内AI人才没问题 4,用训练的GPU给客户提供高质量模型服务1可行性分析:国内做工业化低成本有绝对优势 时代背景:算力卡脖子 美国政府对我国的禁令 现成成熟算力:2023年禁止出口高端AI芯片 A100、H00、H800、A800等数据中心GPU 运力:2022年限制AI加速器的互联带宽 算力:2024年禁止台积电代工7nm工艺的国内芯片 存力:2024年禁止HBM芯片 光刻机:2024年限制荷兰ASML出口7nm光刻机到中国 卡脖子后果:国国内AI优质算力有差距 时刻DeepSeek等国内大模型的“上甘岭”日 “大模型” “上甘岭” DeepSeekV3公开的单次极低预训练成本 DeepSeek全部训练单次成本:5,576,000美元单张H800GPU每小时租赁成本:2美元 DeepSeekv3模型参数 MoE:1共享专家十256路由专家 MLA:低秩压缩 DeepSeekV3模型参数? 671B参数(GPT-3: 175B、GPT-4: 1.76T?) ■每个token激活37B参数(~5.5%),降低计算量 核心技术DeepSeekMoE:显著减少计算量3 核心技术DeepSeekMoE:显著减少计算量(穷则战术穿插) 针对美国的算力禁令 核心思想:1共享专家十+256路由专家,激活8个路由专家 共享专家:捕获通用知识、降低知识余 路由专家:量大、细粒度、灵活组合、方便知识表达 结果:每个Token只要过360亿参数(Llama3.1要4050亿参数)DeepSeek. "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models", 2024 浙江大学核心技术MLA:Multi-HeadLatentAttentionZHEJIANG UNIVERSITY MLA:少许计算量换HBM空间(穷则战术穿插,已开源) 针对美国的HBM芯片禁令(AI算力严重依赖高性能内存)核心思想:低秩压缩KV,显著降低推理时KVcache的存KV Cache for Generation (KB/Token)储空间需求DeepSeek-V2reducing KV cache by 93.3%结果:KVCache使用降低93.3%100Maximum Generation Throughput (Tokens/Sec)推理性能:显著提升DeepSeek 67BDeepSeek-V2576%ofmaximumthroughput推理成本:显著降低1000020000300004000050000 系统核心技术:自研轻量级框架 DualPipe DeepSeek其它方面的性能方面优化 自研轻量级框架(充许系统极致性能优化)FP8训练(提升算力密度)DualPipe(通信、计算重叠度高)PTX优化绕开CUDA护城河(单独解读) DeepSeek有无绕开CUDA护城河? DeepSeek论文 selects only 8 routed experts in practice, it can scale up this number to a maximum of 13 experts(4 nodes × 3.2 experts/node) while preserving the same communication cost. Overall, undersuch a communication strategy, only 20 SMs are sufficient to fully utilize the bandwidths of IBand NVLink. In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2)IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps, Thenumber of warps allocated to each communication task is dynamically adjusted according to theactual workload across all SMs. Similarly, during the combining process, (1) NVLink sending, handled by dynamically adjusted warps. In addition, both dispatching and combining kernelsoverlap with the computation stream, so we also consider their impact on other SM computationkernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions andauto-tune the communication chunk size, which significantly reduces-the use of.the L2 cacheand the interference to other SMs. PTX(ParallelThreadExecution)类英伟达汇编 作用:C+十抽象较高,无法表达GPU内部硬件特性,PTX指令控制1)内存读写到L2、内存和2)GPU内部硬件引擎个人猜测:GPU的内存一致性模型做的差,故GPU计算和通信的内存一致性只能用PTX指令来保证结论:没绕开,更依赖CUDA;但对国产硬件设计有作用 DeepSeekV3未来展望 DeepSeek为代表的国内大模型咬住国外最先进大模型 模型性能:不要指望全面优势,“城头变幻大王旗” 成本:低(战术穿插) 1算力受限,近元年咬住会更难(大家宽容些) 突破工艺卡脖子,实现“战术穿插”十“火力覆盖” 中芯国际等硬核大厂突破工艺卡脖子1华为等算力公司提供高算力密度 个人预测AI竞赛结果 以中国的工业化水平,站着把AI的钱给挣了。 “健身可以让SB跟你好好说话”→ “突破模型、算力卡脖子可以让A国跟咋们好好说话” 本次讲座是科普性质有不严谨的地方敬请谅解!