您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:把握DeepSeek时刻,携手同行 华为昇腾AI解决方案汇报 - 发现报告

把握DeepSeek时刻,携手同行 华为昇腾AI解决方案汇报

2025-02-01-华为Z***
AI智能总结
查看更多
把握DeepSeek时刻,携手同行 华为昇腾AI解决方案汇报

华为昇腾AI解决方案汇报 2025年2月 DeepSeek洞察及昇腾适配进展1 华为昇腾AI基础软硬件介绍2 DeepSeek是AI发展史上的一个关键里程碑,但远未达到AI终点 补齐最后一块自主创新的版图真正形成中美两条AI技术路线 重新定义ScalingLaw延续智能涌现的方向 •随着DeepSeek提供了一种高效率训练的方法,同等算力规模可以探索更强的模型能力•在竞争背景下,头部玩家仍将追逐ScalingLaw,坚定AI算力的战略投资,加速探索下一代AI技术 •中国AI公司首次以关键创新贡献者的身份加入到全球AI竞争中,冲击美国AI霸权•打破NV+OpenAI的资金、技术、人才的垄断,全球重新思考中美技术路线的选择 •DS对强化学习的创新使用,可以让大模型便捷的获得通用性+专用性,可以满足各应用场景需求•DS对通过从模型结构到训推全流程的极致工程优化,大幅提升AI的计算效率,提升模型落地经济性 DeepSeekV3:实现极致性能,稀疏MOE提质降本 低成本完美对标OpenAIO1,突破精确语义理解及复杂推理任务 DeepSeek-V3是一款MoE模型,总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8T token数据集上基于自研HAI-LLM训练系统总计训练了1394h(58.08天) 低成本 性能优 技术创新 绕过CUDA挖掘FP8硬件潜力,MOE和MLA技术实现不到10%的成本方案 数学、科学和代码等领域领先业界,成为业界公认的LLM的领先模型 硬件级、算法级、架构级、工程级、开源生态5大技术创新,轰动全球 绕过GUDA进行PTX编程计算与通信优化,性能提升30% ~150M$Llama3.1-405B训练成本 5.57M$DeepSeek–V3训练成本 GRPO:群体进化的智慧筛选器自我验证机制:AI的"错题本系统" 算法革命 混合专家模型的"智能路由器“多头潜在注意力MLA:空间压缩术 训练框架加速:16到3的量化压缩,通信降低89%推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源蒸馏技术使能第三方模型性能 DeepSeekR1:在Reasoning任务达到了世界水平(OpenAI-o1) 以2阶段SFT+2阶段RL完成,从而解决R1-Zero可读性差、多种语言混合问题 DeepSeek-R1以DeepSeek-V3 Base(671B)为基础模型,使用GRPO算法作为RL框架来提升Reasoning性能 本次开源同时发布了6个基于DeepSeek-R1蒸馏的更小稠密模型(Qwen/LLaMa1.5B 7B14B32B 70B) DeepSeekV3模型架构:Multi-HeadLatent Attention(MLA) 1.推理阶段,理论上可以将KV Cache降低1~2个数量级,大幅减少HBM存取和通信的开销。 昇腾影响 2.对昇腾更亲和,大幅降低对HBM依赖,提升推理Decode性能。 MLA架构 具体实现 只需存储图中的c v,K即可;考虑到矩阵乘法结合律,具体实现过程中WUK可以与WUQ融合、WUV可以与Wo融合,从而无需为每个query计算key-value值。tRtK 张量低秩压缩以降低KV Cache资源开销:相比于传统MHA,MLA通过降维操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储) MLA架构:1)分别对Query、Key-Value pair进行低秩压缩;2)使用RoPE获得位置信息;3)使用MHA计算得到输出。 实验结果 相比于MHA,MLA每token的KV Cache量大幅减少,且精度更高。 对6DeepSHwkevir而opr言ietryn-sri t d,DMistriLbti可o n以 将K V C ac h e降 低 为= 1 . 7 % MTP:Multi-TokenPrediction多token预测提升模型效果 ①模型结构 •每个MTP模块共享嵌入层和输出头•每个MTP模块独占一个TransformerBlock和一个投影矩阵•多个MTP模块串联保持完整的因果关系链 ②训练策略 •每个MTP模块输出预测token的概率分布•每个MTP模块计算对应的交叉熵损失函数•多个MTP模块的损失函数加权平均得到最终训练目标 ③关键作用 •提升每批训练数据的使用效率,强化训练信号•优化模型表达能力,提升next-token的预测效果•可参考投机采样改造MTP模块,加速推理效率 关键发现 •MTP模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用MTP模块,基础模型能够独立完成正常推理•参考投机采样,MTP模块也可以被重新配置用于speculative decoding,加速解码过程,降低整体时延 DualPipe:双流并行优化计算和通信,All-to-All通信开销接近0 ①细粒度的计算通信并行 •将PPstage拆分为更细的模块,提升模块交替编排的灵活度•参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作•经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠 ②双向管道调度减少PP中的气泡 •1F1B中每个batch拆分为1个forward和1个backward•ZeroBubble中 把backward拆 分 为input和weight两 个 部 分•DualPipe中使用对称处理,不同batch从不同的device上开始流水 ③每卡显存占用略微增大 •双向管道训练,需要存两份参数来进行训练(Parameter2x)•模型总参数量671B,每个卡上4个routed expert对应26.8B,同时考虑到PP-16和FP8量化,每个卡上显存占用为1.675GB 关键启示 参考DualPipe技术,基于MindSpeed训练加速框架以及昇腾硬件特性,针对性地设计高效率流水并行技术,提升整体训练性能 DeepSeek通过从模型结构到训推全流程的优化,带来大模型新范式 DeepSeekV3/R1,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛 大模型从技术摸高走向技术摸高+工程创新并行,训练需求持续增长 ①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐ScalingLaw,加速探索AGI②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模千态” •极致性能、稳定可靠的AI集群•深度开放的平台和生态•极致的端到端性能效率优化 •开箱即用的强化学习套件•兼顾成本与性能的蒸馏/微调方案•便捷的部署、敏捷业务上线 DeepSeek能力提升成为各行业生产力工具,加速推理落地千行百业 DeepSeek模型发布即支持昇腾推理,各行业已基于昇腾快速上线 DeepSeek发布两周,3大社区全系列模型上线40+客户/伙伴基于昇腾已上线,15+测试中(预计两周内全部上线) 最新DeepSeekV3/R1/Janus-Pro及6个蒸馏模型基于昇腾开箱即用,配套版本已上线各大开源社区 配套版本上线昇腾社区:https://www.hiascend.com/software/modelzo 配套版本上线魔乐社区:https://modelers.cn/models/MindIE/deeps o/models/detail/678bdeb4e1a64c9dae51d353d84ddd15 昇腾DeepSeek一体机:大吞吐+高并发,加速行业模型落地 DeepSeek洞察及昇腾适配进展1 华为昇腾AI基础软硬件介绍2 昇腾AI基础软硬件架构全面创新,使能行业场景化应用 行业场景化应用 视图分析、检索聚类、搜索推荐、自然语言处理、智能语音、自动驾驶 昇腾AI基础软硬件架构 计算架构CANN深度开放,使能高效灵活开发,匹配开发者使用习惯 模型训练:算网/算存深度协同是大模型分布式并行训练的基础 大模型技术发展方向 千亿稠密/万亿稀疏 超长序列 多模态 更大数据量存储和读写(模型参数、CheckPoint …) 更大规模/更复杂的组网 更复杂的模型及数据切分 算存协同 大规模组网 算网协同 •网络级负载均衡:独家NSLB算法,算网协同调度,多任务节点非连续组网情况下,通信带宽提升20%、模型性能提升7% •超大组网规模:2层1:1无收敛的AI网络架构,最大支持128K集群规模组网,千卡到万卡平滑演进 •极致读写性能:CKPT等算存读写协同优化、PB级存取+TB级带宽,数据读取效率提升50% 支持2级框盒、框框组网,适用于大规模及超大规模集群 模型训练:应用使能软件加持,MFU领先、线性度持平NV 模型算力利用率(MFU) 超大集群线性度 分布式并行+算网协同,集群并行最优 模型推理:提供分层开放的推理引擎MindIE,使能高效推理 模型迁移:工具链进一步升级,提升GPU到昇腾快速迁移能力 GPU训练->昇腾推理:提供MindStudio一站式工具链,3~15人天可完成迁移,80%场景仅需3人天 性能优化、快速推理工具 精度比对、改图工具 迁移分析工具 模型转换工具 模型支持度分析和修改建议 实现训推一体的模型转换 一站式调优工具,提升性能优化效率 一站式调优工具,提升精度优化效率 模型支持度评估 差异一:芯片架构差异导致算子实现不同 差异二:工具链差异导致迁移效率不同 差异三:基础能力差异导致支持完备度不同 例如,矩阵计算时,昇腾采用16x16分形,英伟达采用8x8分形即使算子功能相同,在不同架构下算子实现方式可能不同 算子重开发、精度调试、性能调优的难度体现在工具链的能力上 基础库、加速库、三方库等支持情况不同 跨 架 构 时 需 通 过 引 入 、 适 配第三方库,或者开发 基 于 自 身 架 构 的 对 等 库来解决库的差异问题 亟需精度对比工具:GPU的推理精度在适配昇腾 训 练 的 模 型 时 , 需 要 以 昇 腾 训 练的模型精度为标杆 迁移工作量大:建立工具链完成对昇腾的精度对比和调优。 昇腾已支持国内外开源开放大模型,实测性能持平业界 国内唯一已完成训练千亿参数大模型的技术路线,业界主流大模型PyTorch实测性能均达到0.8~1.1倍业界 DeepSeek系列模型昇腾训练产品适配计划及微调部署建议 DeepSeek主干模型均已支持昇腾推理开箱,性能持续提升中 DeepSeek V3/DeepSeekR1(671B)“满血版” BF16精度推理 采 用BF1 6或FP1 6数 据 格 式 进 行 推 理 , 需 要 内 存 约为1 3 4 0GB需要采用Atlas800I/TA2(8*64GB)4机并行 Atlas800IA2(8*64GB) 最小配置为4机并行采 用Atlas8 0 0TA2时 亦 需4机并 行 INT8精度推理 采用INT8数据格式进行推理,需要内存<700GB,可2机并行 DeepSeek R1蒸馏模型 Atlas800IA2(8*64GB)最小配置为2机并行采 用Atlas8 0 0TA2时 亦 需2机并 行 W8A8量化:支持MTP多token预 测 :待支持 MLA架构:支持EP策略:支持PD分离部署:待支持 关键性能优化特性 DeepseekV3/R1模型本地化部署组网方案 DeepSeekR1/V3推理配置建议BF16最小配置4台计算节点;INT8最小配置2台计算节点; AI计算使能服务-DeepSeek部署支持:快速适配DeepSeek模型,支撑模型快速上线 AI软件栈多且复杂,客户不清楚模型组件安装依赖顺序,模型分析工具链有哪些,模型是否支持容器化部署等 快速部署D