行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

多模态大模型加速算法与开发实践

2025-02-01 - ZOMI酱用户zL5HoU

多模态大模型趋势与挑战

多模态算力趋势：AI迭代持续带来爆点应用，多模态大模型将带动更多行业变革。业界主要的视频生成模型包括闭源（Sora、海螺AI等）和开源（清影、OpenSora等）模型。视频生成大模型催生新应用及新需求，如AI短剧和算力、存储、网络需求的爆发。
多模态算力需求：大模型对集群算力需求快速增长，EFLOPS-day指标显示，从BERT到GPT-4，算力需求呈指数级增长。多模态模型参数持续增长，以Movie Gen 30B为例，集群规模需达6144 H100。
多模态算法结构：以扩散技术（diffusion）为主的多模态生成模型（如SORA类、SD类）技术趋于成熟；以LLM Next-Token Prediction为主的多模态生成理解模型（如Qwen2-VL系列）技术趋于成熟；覆盖图文音视频的全模态模型技术尚不成熟。

加速算法及套件

热门加速技术：DP（ZeRO、Ring Attention、Ulysses）、CP（Megatron-TP、2D/3D-TP）、TP（Gpipe、1F1B、TeraPipe）、PP（BFPipe、Chimera、FisherPipe、Alpa、Dapple、Colossal-AUTO、Galvatron、Unity）、MoE（Tutel、FasterMoE、FlexMoE、SmartMoE）等。
MindSpeed-MM研究现状：已支持Gpipe、1F1B、PTD并行、序列并行、虚拟流水线并行、专家并行、重计算技术、分布式优化器（ZeRO-1/2/3）、计算通信并行技术、超长序列优化技术。在研技术包括内存深度优化、MoE负载均衡、自动并行等。

MindSpeed-MM介绍

架构设计：全栈联合优化、分层开放，支持长序列、MoE、多模态等典型模型应用。包括MindSpeed大模型加速库套件（CANN）、MindSpeed MM多模态模型套件、MindSpeed LLM大语言模型套件、MindSpeed Core亲和加速模块。
模型开发：支持大规模分布式训练，多模态统一架构。软件架构包括预置模型、原生适配接入、主体结构支持灵活搭建多模态生成模型和多模态理解模型，可扩展PredictModel、AEModel、VisionModel、GPTModel等。训练流程包括原子模型开发、配置实例化、模型选择、组合实例化等。
加速方法：PP（切分模型权重）、VPP（进一步切分PP stage）、异构PP（灵活切分模型）、动态PP（减少冗余计算和通信）、USP（CP-Ulysses融合、CP-RingAttention跨节点Ring P2P）、ZeRO（分层zero、ZeRO1/3）、编码器离线处理、TP+SP（切分权重和激活值）、多模态异构模型分解训练（独立并行、分离部署）。

典型多模态模型性能

性能表现：MindSpeed-MM在多个典型多模态模型上实现性能提升，如OpenSora 1.2、OpenSoraPlan 1.2/1.3、SDXL/SD3/FLUX、LLAVA 1.5、Intern VL 2.0-8B/76B、Qwen2-VL-2B/7B等，NPU性能较业界参考性能提升0.95倍。

应用案例

TOP客户商业案例：客户类型一（深度使用&联创）包括A客户（智谱CogVideoX扩展参数）、B/C客户（OpenSoraPlan 10B视频模型训练）、D/E客户（FLUX百卡业务训练）；客户类型二（开箱即用&POC&特性参考）包括XX银行、XX运营商、某央国企使用Qwen2-VL。
原生支持案例：北大OpenSoraPlan + 昇腾MindSpeed-MM实现电影级视频生成；360 + 昇腾MindSpeed-MM训练Qihoo-T2X。

ZOMI酱华为昇腾生态-技术首席多模态大模型趋势与挑战 MindSpeed-MM介绍应用案例趋势与挑战 1.1多模态算力趋势1.2多模态算法结构 1.1多模态趋势视频生成大模型催生新应用及新需求：•AI短剧，短视频进入“零基础创作”时代业界主要的视频生成模型：闭源：Sora（OpenAI）、海螺AI（miniMax）、可灵（快手）、Pixverse（爱诗科技）、即梦（字节）、通义万相（阿里）、Runway、Luma •多模态数据推动算力、存储、网络迎来新一轮爆发开源：清影（智谱）、OpenSoraPlan（北大）、OpenSora（潞晨）、Mochi、腾讯混元（hunyuanvideo） AI迭代持续带来爆点应用，多模态大模型将带动更多行业变革 1.1多模态算力趋势 EFLOPS-day：1EFLOPS(约3千张A100卡)集群运行1天所提供的算力 1.2多模态算法结构以LLM Next-Token Prediction为主的多模态生成理解原生训练统一模型例如：视频生成SORA类、图像生成SD类例如：Qwen2-VL系列、InternVL2.0系列例如：EMU3、Janus 多模态模型结构非常复杂，并且在快速持续创新和演进中 1.2多模态算法结构多模态模型结构非常复杂，并且在快速持续创新和演进中 1.3加速算法及套件同步快速发展充分挖掘算力价值成为热门研究课题，不断涌现的热门技术集中于头部加速套件 MindSpeed研究现状已支持的技术 •Gpipe•1F1B•PTD并行•Sequence Parallel并行•Virtual Pipeline并行•Expert Parallel并行•重计算技术•分布式优化器(ZeRO-1)•ZeRO-2/ZeRO-3•计算通信并行技术•超长序列优化技术在研技术 •内存深度优化•MoE负载均衡•自动并行 MindSpeed-MM介绍 2.1 MindSpeed-MM架构设计2.2 MindSpeed-MM模型开发2.3 MindSpeed-MM加速方法 2.1MindSpeedMM架构全栈联合优化、分层开放长序列、MoE、多模态等典型模型应用 MindSpeedCore -亲和加速模块通信优化通信隐藏流量冲突管理通算融合 PyTorch/MindSpore CANN基础算子|融合算子| HCCL | GE引擎|毕昇编译器 2.2 MindSpeed MM架构大规模分布式训练，多模态统一架构模型套件软件架构统一的多模态大模型套件预置模型 •预置模型：提供开箱即用脚本，包括预训练/微调/在线推理等。•原生适配接入：第三方库Diffusers已原生适配NPU，在MM中提供启动脚本，部分加速代码通过Patch替换，不与MM整体架构强耦合，可快速支持图像生成能力。主体结构支持灵活搭建多模态生成模型和多模态理解模型，可扩展：•PredictModel：多模态扩散骨干模型。 •AEModel：压缩骨干模型。•VisionModel：视觉编码骨干模型。•GPTModel：LLM骨干模型。对接MindSpeedCore •具备更强大的并行能力，非对齐长序列并行提供更长序列训练能力。•对接MindSpeed Core加速库，更多亲和优化，提升性能。 2.3 MindSpeed MM加速方法 VPP：进一步切分PP stage，减少空泡率，提升性能 3.4 MindSpeed MM加速方法分层zero：节点内zero3，节点间zero1 TP:切分Linear和Attention，Linear按行或列切分权重，Attention将head计算切分到多个deviceTP通信：2次all-reduce，前向对输入all-reduce，反向对梯度all-reduceTP-SP:对Sequence进行切分，作用于layernorm和dropout，将计算和激活切分到多个deviceTP-SP通信:2次all-gather，2次reduce-scatter 2.3MindSpeed MM加速方法：DistTrain多模态异构模型分解训练 ➊异构模型，流水空泡大 ➋动态数据，计算负载不均 ➊异构模型：针对Encoder、LLM、Generator等不同结构的模型，采用与LLM相同的并行策略，流水线并行空泡大。 ➊独立并行：针对不同结构的模型，独立设置多维并行配置，利用数据、模型参数等特性，设置最优性能的资源和并行配置。 ➋动态数据：针对图像、视频、文本等不同模态的数据，不同DP采用相同的Batch Size，计算负载差距大，由于动态分辨率场景数据形状动态变化，相同DP内计算也拖尾。 ➋分离部署：根据最优性能配置，将异构模型Encoder、LLM、Generator，分离部署到不同的计算单元，实现多模态训练流水优化。 2.4MindSpeed MM典型多模态模型性能此处是广告 https://gitee.com/ascend/MindSpeed-MM 应用案例 3.1 TOP客户商业案例3.2原生支持案例1：北大OpenSoraPlan3.2原生支持案例2：360qihooT2X 3.1 TOP客户商业案例客户类型二（开箱即用&POC&特性参考）客户类型一（深度使用&联创） •A客户：XX银行客户，开箱即用，使用Qwen2-VL•B客户：XX运营商客户，开箱即用，使用Qwen2-VL•C客户：某央国企客户，开箱即用，使用Qwen2-VL•D客户：某大模型厂商POC任务，使用InternVL76B •A客户：以智谱CogVideoX为底座将5B扩展参数到15B~ 30B，需支持720P 200帧及1080P 200帧，基于MindSpeed-MM合作中； •B/C客户：以OpenSoraPlan为底座，实现10B视频模型训练 •D/E客户：某互联网大厂使用FLUX进行百卡业务训练 3.2昇腾多模态原生案例一：北大OpenSoraPlan+昇腾MindSpeed-MM 凭借昇腾澎湃算力，Open-SoraPlan实现电影级视频生成北大已经使用昇腾+MindSpeed-MM开发OpenSoraPlan1.5版本 3.3昇腾多模态原生案例二： 360 +昇腾MindSpeed-MM训练Qihoo-T2X THANKS 智能未来，探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI

点击免费查看完整报告

多模态大模型加速算法与开发实践

多模态大模型趋势与挑战

加速算法及套件

MindSpeed-MM介绍

典型多模态模型性能

应用案例

你可能感兴趣

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权

【公告全知道】机器人+AI算法+云计算+多模态大模型+机器视觉+大数据！公司布局机器人产品

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

大模型下的多模态智能风控落地实践

大模型场景下生成式AI多模态内容鉴伪实践分享

宁德核电：基于大模型的AI讲师开发实践

【风口研报·洞察】阶跃星辰发布万亿参数MoE模型，分析师指出模型规模提升到万亿对算力、数据和算法都提出了新要求，文本语料与多模态语料等上游数据价值有望重估;一季报季前后主题赛道投资的节奏如何演绎

中小盘周报：大模型重塑自动驾驶算法，L3加速到来

计算机行业专题报告：大模型“幻觉”症结有望逐步化解，多模态加速商业化

国内外大模型加速迭代，关注 AI 多模态应用及 AI Agent 进展

多模态大模型加速算法与开发实践

你可能感兴趣

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游 元梦之星 IP授权

【公告全知道】机器人+AI算法+云计算+多模态大模型+机器视觉+大数据！公司布局机器人产品

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

大模型下的多模态智能风控落地实践

大模型场景下生成式AI多模态内容鉴伪实践分享

宁德核电：基于大模型的AI讲师开发实践

【风口研报·洞察】阶跃星辰发布万亿参数MoE模型，分析师指出模型规模提升到万亿对算力、数据和算法都提出了新要求，文本语料与多模态语料等上游数据价值有望重估;一季报季前后主题赛道投资的节奏如何演绎

中小盘周报：大模型重塑自动驾驶算法，L3加速到来

计算机行业专题报告：大模型“幻觉”症结有望逐步化解，多模态加速商业化

国内外大模型加速迭代，关注 AI 多模态应用及 AI Agent 进展

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权