您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [ZOMI酱]:多模态大模型加速算法与开发实践 - 发现报告

多模态大模型加速算法与开发实践

2025-02-01 - ZOMI酱 用户zL5HoU
报告封面

ZOMI酱华为昇腾生态-技术首席 多模态大模型趋势与挑战 MindSpeed-MM介绍 应用案例 趋势与挑战 1.1多模态算力趋势1.2多模态算法结构 1.1多模态趋势 视频生成大模型催生新应用及新需求:•AI短剧,短视频进入“零基础创作”时代 业界主要的视频生成模型:闭源:Sora(OpenAI)、海螺AI(miniMax)、可灵(快 手)、Pixverse(爱诗科技)、即梦(字节)、通义万相(阿里)、Runway、Luma •多模态数据推动算力、存储、网络迎来新一轮爆发 开源:清影(智谱)、OpenSoraPlan(北大)、OpenSora(潞晨)、Mochi、腾讯混元(hunyuanvideo) AI迭代持续带来爆点应用,多模态大模型将带动更多行业变革 1.1多模态算力趋势 EFLOPS-day:1EFLOPS(约3千张A100卡)集群运行1天所提供的算力 1.2多模态算法结构 以LLM Next-Token Prediction为主的多模态生成理解原生训练统一模型 例如:视频生成SORA类、图像生成SD类 例如:Qwen2-VL系列、InternVL2.0系列 例如:EMU3、Janus 多模态模型结构非常复杂,并且在快速持续创新和演进中 1.2多模态算法结构 多模态模型结构非常复杂,并且在快速持续创新和演进中 1.3加速算法及套件同步快速发展 充分挖掘算力价值成为热门研究课题,不断涌现的热门技术集中于头部加速套件 MindSpeed研究现状 已支持的技术 •Gpipe•1F1B•PTD并行•Sequence Parallel并行•Virtual Pipeline并行•Expert Parallel并行•重计算技术•分布式优化器(ZeRO-1)•ZeRO-2/ZeRO-3•计算通信并行技术•超长序列优化技术 在研技术 •内存深度优化•MoE负载均衡•自动并行 MindSpeed-MM介绍 2.1 MindSpeed-MM架构设计2.2 MindSpeed-MM模型开发2.3 MindSpeed-MM加速方法 2.1MindSpeedMM架构 全栈联合优化、分层开放 长序列、MoE、多模态等典型模型应用 MindSpeedCore -亲和加速模块 通信优化通信隐藏流量冲突管理通算融合 PyTorch/MindSpore CANN基础算子|融合算子| HCCL | GE引擎|毕昇编译器 2.2 MindSpeed MM架构 大规模分布式训练,多模态统一架构模型套件 软件架构统一的多模态大模型套件 预置模型 •预置模型:提供开箱即用脚本,包括预训练/微调/在线推理等。•原生适配接入:第三方库Diffusers已原生适配NPU,在MM中提供启动脚本,部分加速代码通过Patch替换,不与MM整体架构强耦合,可快速支持图像生成能力。 主体结构 支持灵活搭建多模态生成模型和多模态理解模型,可扩展:•PredictModel:多模态扩散骨干模型。 •AEModel:压缩骨干模型。•VisionModel:视觉编码骨干模型。•GPTModel:LLM骨干模型。 对接MindSpeedCore •具备更强大的并行能力,非对齐长序列并行提供更长序列训练能力。•对接MindSpeed Core加速库,更多亲和优化,提升性能。 2.3 MindSpeed MM加速方法 VPP:进一步切分PP stage,减少空泡率,提升性能 3.4 MindSpeed MM加速方法 分层zero:节点内zero3,节点间zero1 TP:切分Linear和Attention,Linear按行或列切分权重,Attention将head计算切分到多个deviceTP通信:2次all-reduce,前向对输入all-reduce,反向对梯度all-reduceTP-SP:对Sequence进行切分,作用于layernorm和dropout,将计算和激活切分到多个deviceTP-SP通信:2次all-gather,2次reduce-scatter 2.3MindSpeed MM加速方法:DistTrain多模态异构模型分解训练 ➊异构模型,流水空泡大 ➋动态数据,计算负载不均 ➊异构模型:针对Encoder、LLM、Generator等不同结构的模型,采用与LLM相同的并行策略,流水线并行空泡大。 ➊独立并行:针对不同结构的模型,独立设置多维并行配置,利用数据、模型参数等特性,设置最优性能的资源和并行配置。 ➋动态数据:针对图像、视频、文本等不同模态的数据,不同DP采用相同的Batch Size,计算负载差距大,由于动态分辨率场景数据形状动态变化,相同DP内计算也拖尾。 ➋分离部署:根据最优性能配置,将异构模型Encoder、LLM、Generator,分离部署到不同的计算单元,实现多模态训练流水优化。 2.4MindSpeed MM典型多模态模型性能 此处是广告 https://gitee.com/ascend/MindSpeed-MM 应用案例 3.1 TOP客户商业案例3.2原生支持案例1:北大OpenSoraPlan3.2原生支持案例2:360qihooT2X 3.1 TOP客户商业案例 客户类型二(开箱即用&POC&特性参考) 客户类型一(深度使用&联创) •A客户:XX银行客户,开箱即用,使用Qwen2-VL•B客户:XX运营商客户,开箱即用,使用Qwen2-VL•C客户:某央国企客户,开箱即用,使用Qwen2-VL•D客户:某大模型厂商POC任务,使用InternVL76B •A客户:以智谱CogVideoX为底座将5B扩展参数到15B~ 30B,需支持720P 200帧及1080P 200帧,基于MindSpeed-MM合作中; •B/C客户:以OpenSoraPlan为底座,实现10B视频模型训练 •D/E客户:某互联网大厂使用FLUX进行百卡业务训练 3.2昇腾多模态原生案例一:北大OpenSoraPlan+昇腾MindSpeed-MM 凭借昇腾澎湃算力,Open-SoraPlan实现电影级视频生成 北大已经使用昇腾+MindSpeed-MM开发OpenSoraPlan1.5版本 3.3昇腾多模态原生案例二: 360 +昇腾MindSpeed-MM训练Qihoo-T2X THANKS 智能未来,探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI