您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰海通证券]:华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系 - 发现报告

华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系

AI智能总结
查看更多
华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系

[table_Header]2025.08.06 【AI产业深度】华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系 产业研究中心 摘要: 李嘉琪(分析师)010-83939821lijiaqi2@gtht.com登记编号S0880524040001 盘古大模型的演进,其核心是为解决大规模分布式系统中的效率难题。随着大语言模型从稠密架构全面转向混合专家(MoE)稀疏架构,业界普遍面临专家负载不均衡这一系统性瓶颈,它制约了MoE模型在训练和推理中的实际性能。华为将此系统性问题作为其软硬架构创新的核心方向,标志着其关注点已从单纯硬件或单纯AI算法问题,拓展至在自研硬件上更高效解决AI系统工程问题。 刘峰(研究助理)0755-23976068liufeng6@gtht.com登记编号S0880124060013 华为在大模型层面并行推出了两种创新路径。一方面,Pangu Pro MoE通过架构破局,提出分组专家混合(MoGE)架构,旨在通过结构性设计解决负载不均衡问题。另一方面,Pangu Ultra MoE则通过系统级优化,以仿真先行的设计方法来优化模型架构从而更好的适配昇腾硬件,并通过贯穿训练和推理的协同优化,以充分发挥硬件潜力。 这一软件、硬件协同创新的物理基础,是新一代AI基础设施CloudMatrix。其核心技术之一是统一总线(UB)网络,通过构建统一寻址的分布式高速内存池,在工程上降低了跨节点通信的性能差异。这一硬件层面的发展,不仅为上层PDC(Prefill-Decode-Caching)分离架构等软件创新提供了物理前提,也使其能通过大规模专家并行(LEP)和AIV-Direct等算子级优化,利用硬件有效承载通信开销,换取软件层面的高并行与低延迟。 通往L3智能驾驶与具身智能之钥——视觉-语言-动作模型(VLA)产业研究2025.08.02低空经济系列(八):从Joby和Archer看国内eVTOL产业2025.07.17尊界以智能定义豪华,引领汽车产业攀顶全球价值链——华为产业研究之智能汽车系列(二)2025.07.13【AI产业深度】扩散大语言模型(dLLM)开启并行新范式:大模型领域的重要技术路线试水2025.07.01低空经济系列(七):飞行培训行业,卖方主导向买方市场演进2025.06.16 风险提示:1)大语言模型的技术进展不及预期。2)人工智能行业竞争格局变化带来的不确定性。3)硬件、算法或功能优化不及预期。 目录 1.盘古大模型的演进方向从追赶并对标SOTA级模型到为昇腾硬件量身定制模型...........................................................................................................................41.1.盘古大模型系列的起点是PanGu-α确立基于昇腾与自研框架的技术路线............................................................................................................................41.2. PanGu-Σ对稀疏化进行早期尝试,2023年就向万亿参数发起探索........41.3.盘古3.0提出“5+N+X”架构,面向多行业进行大模型落地.................51.4.盘古5.0发布、盘古5.5全面拥抱MoE,体现从应用深化到架构升维的演进....................................................................................................................62. Pangu Pro MoE与Pangu Ultra MoE最大化昇腾硬件利用效率.......................72.1. Pangu Pro MoE以架构创新缓解负载不均衡..............................................82.1.1.专家负载不均衡是分布式系统的一个关键挑战.................................82.1.2. MoGE以分组专家混合架构实现确定的负载均衡..............................92.1.3. Pangu Pro MoE通过贯穿训练和推理的定制,旨在充分发挥昇腾硬件的性能..........................................................................................................102.2. Pangu Ultra MoE以系统级寻优策略探索软硬协同路径..........................122.2.1. Pangu Ultra MoE采用仿真先行的设计方法进行架构寻优...............122.2.2. Pangu Ultra MoE采用定制训练策略以提升模型性能.......................132.2.3. Pangu Ultra MoE通过并行、通信与内存的深度协同实现系统级训练优化..............................................................................................................142.2.4. Pangu Ultra MoE多方面的协同优化提升训练效率与模型性能.......153.CloudMatrix通过全栈协同优化AI推理基础设施........................................163.1.大语言模型对AI基础设施提出四大全新挑战........................................163.2. CloudMatrix-Infer通过软硬件协同设计为承载SOTA级模型而生........173.2.1. CloudMatrix-Infer采用PDC解耦的Peer-to-Peer对等服务架构......173.2.2.大规模专家并行(LEP)将通信成本转化为性能收益....................183.2.3. AIV-Direct通信机制的应用实现算子级深度融合.............................193.2.4. CloudMatrix-Infer针对DeepSeek-R1架构特性做出多方面优化.....193.2.5. CloudMatrix-infer交出高吞吐量和高效率的推理表现......................203.3. CloudMatrix硬件设计为上层创新提供物理基础.....................................203.3.1.超节点的物理构成与设计理念...........................................................213.3.2.统一总线(UB)网络实现节点间通信的高性能..............................21 3.3.3. CloudMatrix通过三平面网络架构,兼顾内部性能与外部兼容.......223.3.4.昇腾910C NPU为AI计算负载定制异构设计.................................233.3.5. CANN软件栈是连接上层框架与底层硬件的关键中间层................24 4.全栈协同是华为AI的核心战略路径..............................................................25 4.1.开源策略以模型开放构筑昇腾硬件生态建设..........................................254.2.架构、系统和算子构成全栈协同的三个方面..........................................26 5.风险提示............................................................................................................26 1.盘古大模型的演进方向从追赶并对标SOTA级模型到为昇腾硬件量身定制模型 华为盘古大模型的演进历程,不仅是一部大模型技术迭代史,而且是一部围绕其自研昇腾(Ascend)硬件平台,从追赶到探索,逐步构建“软硬一体”战略的产业发展路径。其发展路径清晰地展示了从最初的参数竞赛,到万亿模型的稀疏化探索,再到面向行业深度优化的结构化转型,最终全面拥抱为硬件效率而生的混合专家(Mixture of Experts,MoE)架构。这一过程揭示了华为的AI战略核心:模型的每一次进化,都是为了更紧密地与昇腾硬件协同,旨在构筑其全栈软硬融合技术体系。 1.1.盘古大模型系列的起点是PanGu-α确立基于昇腾与自研框架的技术路线 华为盘古大模型的征程始于2021年4月,其标志性起点是PanGu-α模型的发布。这是一个参数规模高达2000亿的自回归中文预训练语言模型,其训练语料库是从近80TB原始数据中经过复杂清洗和过滤后提炼出的1.1TB高质量中文文本,在当时引起了业界的广泛关注。PanGu-α的论文明确指出,当时GPT-3等模型主要基于英文且仅提供有限访问,而其目标正是为了推动中文预训练语言模型的公共研究。它首次完整地向外界展示了华为AI的全栈自主技术路线,模型是在一个由2048个自研的昇腾910 AI处理器组成的集群上,使用自研的MindSpore深度学习框架完成训练的。为了攻克大模型训练的内存和算力挑战,团队基于MindSpore框架采用了包括数据并行、算子级模型并行、流水线模型并行在内的五维并行策略,从而高效地将训练任务扩展至整个集群,为其后续走上“为硬件效率而进行软件创新”的道路奠定了方向。这种优化不仅体现在系统工程层面,也体现在模型架构的微创新上,例如论文中提到的在Transformer主干网络之上增加一个独特的“查询层”(Query Layer)以增强模型性能。PanGu-α解决了华为AI大模型“从0到1”的问题,它验证了这条全栈自主路线的技术可行性,成为了后续所有演进的重要基础。 数据来源:PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation (Zeng et al., 2021)论文 1.2.PanGu-Σ对稀疏化进行早期尝试,2023年就向万亿参数发起探索 在PanGu-α证明了千亿级稠密模型的可行性之后,华为将目光投向了更具挑战性的万亿参数领域。2023年3月,华为发布了拥有1.085万亿参数的PanGu-Σ模型,标志着其向更大模型规模和更高效模型架构的探索上又迈进一步。PanGu-Σ团队认为,单纯增加稠密模型的参数会带来高昂的计算成本,而稀疏化是通往万亿参数更经济高效的路径。 PanGu-Σ的核心创新在于引入了稀疏化架构。它并非沿用传统的稠密模型设计, 而是通过继承式学习(Inheritance Learning)策略,继承了PanGu-α13B版本的参数,并将其扩展为一个覆盖40个不同领域(包括自然语言和编程语言)的稀疏模型。这一架构的核心是随机路由专家(Random Routed Experts,RRE)