您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:云昇腾AI云服务行业:6A云化算力底座华为 - 发现报告

云昇腾AI云服务行业:6A云化算力底座华为

信息技术2024-10-06华为健***
AI智能总结
查看更多
云昇腾AI云服务行业:6A云化算力底座华为

6AFAMILY云化算力底座 目录 大模型引发全球算力需求的指数级增长02 大模型为AI产业带来拐点03Sora的出现再次印证Scaling law,大模型创新需要澎湃算力支撑04 聚焦业务创新,企业需要全栈算力服务05 大模型是人类迄今为止最复杂的软件、硬件系统06昇腾AI云服务,大模型时代的最佳云化全栈算力服务07满足多样化算力使用模式08满足多样化算力管理模式09满足多样化算力部署模式10 FAMILY昇腾云服务打造6A算力沃土11 昇腾AI云服务打造6A算力沃土,构建百模千态首选云底座12故障恢复快Fault recovery Acceleration13资源获取快Access Acceleration14模型迁移快Migration Acceleration15云上推理投资优Investment Advantage17就近服务时延优Latency Advantage19云上性能优Yield Advantage21FAMILY 昇腾云服务开放兼容支持百模千态22 AI Gallery:一站式AI社区服务平台,构建百模千态的开放昇腾社区23D-Plan:生态伙伴计划24 客户案例 26 昇腾AI云服务—全球行业先行者26 大模型引发全球算力需求的指数级增长 大模型为AI产业带来拐点 从“感知”走向“生成”,从专用走向通用 人工智能产业发展经历三次浪潮。最近的一次是以Transformer架构为代表的大模型,生成式AI的兴起,将我们带入新的AI产业浪潮之中。大模型是人工智能历史的分水岭,此前,人们更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体 ;而现在,人类则进入到通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,模型正在从专用走向通用。 随着人工智能技术的日新月异,AI将进一步驱动各行各业生产能力、生产效率从“量变到质变”,实现跨越式发展和新质生产力跃升,如何用好AI将成为国家、行业、企业的核心竞争力。 Sora的出现再次印证Scaling law,大模型创新需要澎湃算力支撑 大模型的爆发引发全球算力需求的指数级增长。2024年基于扩散的视频生成模型Sora的出现,其革命性的视频生成能力,不仅展示了AI在视觉内容创造上的突破,更预示着全球算力需求的新一轮激增。数据显示,过去10年AI算力需求翻了30万倍。而未来10年AI算力将再增长500倍。数据集规模将从目前的一两个T增长到100T。此外,大模型还需要理解更长的上下文,Token长度将从千级发展到十万级。 视频生成类模型的算力消耗相比LLM提升20倍,意味着训练集群规模要扩大一个数量级。万卡训练集群将成为训练下一代生成式模型的必备条件。由于算力规模扩大,算力的调度和管理的难度将大幅提升,需要有一个算力平台可以整合管理,调度,自动故障隔离,checkpointing,自动任务恢复的任务。这些挑战相互影响、环环相扣。 针对AI时代的这些挑战,华为云提出了软硬件结合的系统性创新,华为云昇腾AI云服务整合集群算力、计算引擎CANN、AI开发框架MindSpore和ModelArts AI开发生产线。为大模型的训练,推理,AI应用的开发、运行提供稳定可靠的全栈算力保障。 聚焦业务创新,企业需要全栈算力服务 大模型是人类迄今为止最复杂的软件、硬件系统 大模型是一个复杂系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。避免出现单点硬件故障导致的全面训练中断、梯度爆炸、算法重训等一系列的问题,是一项复杂的系统工程,需要从算力效率、线性扩展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练,运维经验,以服务的方式让企业使用到最新的经验,技术成果,避免重复解决问题,让企业得以聚焦创新。 »参数面无损网络»多级存储优化»计算集群密度设计»液冷设计»多样化算力调度»集群稳定性设计»…… 昇腾AI云服务,大模型时代的最佳云化全栈算力服务 昇腾AI云服务 :包括云化算力、AI开发生产线ModelArts和AI开发者生态AI Gallery。为支持大模型的“百模千态”创新,昇腾AI云服务提供触手可及的澎湃AI算力服务,独有的多级恢复机制和完备的工具链可实现千卡训练连续30天不中断,任务恢复时长小于30分钟,为大模型和AI应用的开发、运行、运维提供最佳算力云底座。 AI Gallery百模千态社区 模型 满足多样化算力使用模式 拥有超级APP 自研大模型需要数千卡算力 offering »提供大规模算力集群»提供分布式加速库»提供大模型适配和优化»技术栈开放,高度自主可控 拥有较强行业背景和大量行业数据 增量训练大模型需要数百卡算力 offering »提供主流三方大模型»提供完善的SFT训练框架»提供参考案例»提供易用的大模型应用开发工具链 拥有较深的行业理解 智能应用开发需要数十卡算力 offering »提供开箱即用的开源大模型,支持微调,快速上手»提供端到端应用开发工具链、向量数据库等»提供丰富的预制应用模板 满足多样化算力管理模式 AI开发生产线ModelArts,是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。为满足客户多样化的算力管理模式,ModelArts提供Standard和Lite两种模式。ModelArts Standard包含端到端的AI开发生产线+算力持续运维平台。ModelArts Lite仅包含算力持续运维平台。 ModelArts Standard服务的介绍 ModelArts Standard 端到端生产工具链,一致性开发体验 »线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理 AI工程化能力,支持AI全流程生命周期管理 »支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断 容错能力强,故障恢复快 »故障检测覆盖度95%,故障30分钟内恢复,恢复成功率大于95%,保障千卡作业稳定训练数周以上,训练有效卡时大于95% »提供端到端的AI开发生产线+算力持续运维平台 ModelArts Lite服务的介绍 零改造迁移 »提供业界通用的k8s接口使用资源,业务跨云迁移无压力»SSH直达节点和容器,一致体验 多种资源形态 »集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效»节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 极致性价比 »提供高性价比国产算力»多年软硬件经验沉淀,AI场景极致优化»加速套件,训练、推理、数据访问多维度加速 故障恢复 »机柜、节点、加速卡、任务多场景故障感知»节点级、作业级、容器级,多级故障恢复 满足多样化算力部署模式 端云协同,以云助端的案例 昇腾AI云服务通过云网边端芯算力协同,为端侧提供更充沛算力,让终端应用更智能。 受限于体积和成本等因素,手机硬件很难做到高清拍摄,也无法支撑超分修图的算力要求。通过以云助端,调用云端强大的算力,利用枢纽节点大规模算力来进行超分修图,突破手机硬件的限制,为用户的手机拍照体验带来了全新的突破,使得用户能够在手机上轻松获得专业级的照片效果。 昇腾云服务打造6A算力沃土FAMILY 昇腾AI云服务打造6A算力沃土,构建百模千态首选云底座FAMILY 大模型时代的AI算力对数据中心的基础设施要求极高。以散热为例,AI服务器的功率密度远超通用服务器,单机柜的功耗是过去的6-8倍,并需要专用的液冷系统进行散热。大模型训练动辄需要百卡、千卡甚至万卡,自建AI数据中心面临AI研发人员稀缺,硬件建设周期长、集群运维团队经验少、推理服务时延高等诸多挑战。 故障恢复快Fault recovery Acceleration 在云上,可以获得更快速的运维保障,集群故障可以做到1分钟发现,5分钟诊断,10分钟恢复。 传统方式是被动响应集群故障,重启范围广,作业恢复慢 业界实践 : »业界大模型训练平均2.8天出现一次中断»业界故障处理时间约1~30天,严重拉低大模型训练效率 业界 训练时间变长 硬件故障占比高 在1000个80G A100上 训 练3000亿个 单 词, 需 要33天。 实 际 训 练 了90天,期间出现112次故障。 大模型训练期间碰到的主要问题是硬件故障、导致任务手动重启35次,自动重启约70多次,严重影响模型的训练进程。 昇腾AI云服务主动诊断故障,避免训练中断,确保集群长稳运行 华为实践 : »盘古-200B在非故障停机前连续稳定训练30天 昇腾AI云服务 1分钟故障检测,5分钟诊断 »全链路故障感知,覆盖不同层次的故障感知 ;»故障诊断引擎 :训练任务分层分级诊断能力 ;»丰富的诊断类型 :支持300+通用种故障类型诊断,覆盖度95%+。 10分钟故障恢复 »通过三级故障恢复,减少50%故障恢复耗时 ;»硬件故障不影响业务,10分钟故障恢复 ;»CKPT、图编译、建链、调度协同优化,缩短恢复时间。 资源获取快Access Acceleration 在云上,模型训练可一键接入贵安、乌兰察布、芜湖,香港AI算力中心,支撑万亿参数大模型、百P数据训练。 模型迁移快Migration Acceleration 昇腾云服务支持业界各类框架、加速库及三方社区生态,可快速、无损实现模型和应用的迁移适配。 第三方算子 支持算子Kernel级源码迁移 第三方模型 已支持三方社区数百个模型 第三方AI框架 已适配70+模型正与百度深度合作,共同推进模型适配 全面支持1.5、2.X主流版本,300+模型 支持并兼容各版本高阶特性 NV MegatronLM 第三方加速库 跟随版本支持最新特性 Transformer加速库支持多维混合并行、跨节点预训练等特性 分布式并行训练加速库支持混合精度、MoE、通信优化等特性 NV Triton 第三方推理服务 支持“0代码”快速对接 业界推理部署平台支持并行推理、动态调度等关键特性 业界推理模型标准100+基础模型,定制模型零成本迁移 提供端到端昇腾迁移工具链,自动化迁移工作可从4周缩减至2周。 大模型迁移工具 提供工具化端到端迁移调优服务,包括30+可视化调优部署工具、自动化迁移工具,典型场景迁移至生产环境<2周,助力客户业务快速上线 大模型开发工具 华为云昇腾AI云服务提供从云化算力、模型开发、模型托管到生态的全栈服务,企业无需再次投资AI相关的通用技术,可以一键链接云上的开发平台,获取开发所需要的工具的套件。 云上推理投资优Investment Advantage 在云上,云计算弹性扩缩容支持业务快速增长的同时避免业务波谷时资源闲置。 资源按需付费,让不确定的推理资产投资变得可控,成本控制更优。 云上,资源按需付费,让不确定的推理资产投资变得可控,成本控制更优。 2专属云模式1个月内开通 公有云模式分钟级开通 3自采自建云3-6个月开通 1 M客 户 :购 买 贵 安 机 房 内1000卡, 符 合 金 融 监 管 要求,华为云服务、DC运营运维服务 Z客户 :华为云20分钟开通1000卡( 自 建 需3个 月 ),可随时弹性扩容,TCO节省30%以上 G银行 :线下自建昇腾云周期太长,考虑转向专属云模式 就近服务时延优Latency Advantage 在云上,推理服务可以就近接入,实现超低时延优质服务体验。 并发数(同等资源,并发越高