您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [浪潮信息]:大模型智算软件栈OGAl-v1.0 - 发现报告

大模型智算软件栈OGAl-v1.0

信息技术 2023-09-12 浪潮信息 晓燚
报告封面

2023 年 8 月 CONTENT目录 01 大模型:AI技术新范式 02 大模型研发与应用的需求和挑战 03 浪潮信息的大模型探索与实践 04 OGAI: 大模型智算软件栈 06 4.1 整体架构4.2 智算中心OS4.3 PODsys.ai4.4 AIStation4.5 YLink4.6 MModel080910121416 大模型:AI技术新范式 大模型技术是当前AIGC技术发展的核心驱动力。从2020年GPT-3发布以来,OpenAI等国内外的科技企业和研究机构通过零样本学习( Zero-Shot Learning )、提示词工程(PromptEngineering)、指令微调(SFT)、人类反馈强化学习(RLHF)等诸多技术创新,找到了有效使用大模型的技术范式。2022年底发布的ChatGPT成功引爆了公众对于生成式人工智能的热情。2023年以来,国内外针对生成式AI的投资激增,微软、谷歌等众多科技公司都在开发生成式AI模型。截止到2023年7月,国内发布的生成式AI模型已经超过了100个。 始广泛地进入到日常生活和办公之中,这些系统包括大型语言模型聊天机器人,如C h a t G P T 和 B a r d , 也 包 括 办 公 助 手 M Soffice copilot,也包括笔记AI助手notion AI和编程助手GITHUB copilot等。 另一方面,大模型的开源开放进一步激发了学界和社区的热情。Meta在2023年3月开源的LLaMA(羊驼)大模型在短短的几个月时间内就演化出了蓬勃发展的一个大模型社区,基于LLaMA进行衍生开发的大模 型 包 括 A l p a c a 、 B E L L E 、 V i c u n a 、Koala、Orca等。此外,Falcon、MPT等众多模型的开源进一步丰富了社区生态,促进了业界对AIGC的应用落地探索。 当前,基于大模型技术的创新应用已经开 大模型研发与应用的需求和挑战 大模型的应用落地面临诸多挑战,而其核心是不断提高模型本身的认知、泛化、逻辑思维等各方面的基础能力,从而提高AIGC应用的智能化水平。大模型能力的提升和其训练投入的算力当量(PD,PetaFlop/s-day)正相关。根据公开资料分析,GPT-4、PaLM-2等基础模型的算力当量已经达到了GPT-3的数十倍,相当于上万颗业界性能领先的NVIDIAHopper架构的GPU芯片组成的AI集群训练超过1个月的时间。对规模庞大的算力基础设施的需求成为了大模型研发的最大挑战。 兼顾性能和稳定性的考虑,为了确保系统的高性能和稳定运行,需要验证在不同的硬件环境下的软件适配,优化包括BIOS,操作系统,底层驱动,文件系统和网络等多个指标,找到最优的选择这个过程耗时耗力,容易贻误算力的上线时间。 大 模 型 训 练 过 程 比 传 统 的 分 布 式 训 练 复杂 , 训 练 周 期 长 达 数 月 。 集 群 计 算 效 力低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而会降低大模型训练的成功概率,也会使得大模型训练成本居 高 不 下 。 因 此 , 大 模 型 对 训 练 的 稳 定性、故障检测与训练容错提出了更高的要求。同时简化大模型分布式任务提交、实现智能与自动化的任务资源匹配和训练健壮性也是提升训练效率的重要保证。 算力平台的构建不仅仅是服务器、存储、网络等硬件设备的集成,也有诸多设备软硬件兼容性和性能调教上的know-how。需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性。比如在InfiniBand、RoCE网络的配置和驱动安装上会遇到一些复杂的网络设置 和 驱 动 安 装 问 题 。 由 于 涉 及 到 用 户 管理,GPU运行基础环境,并行文件系统等多个组件的安装和配置,往往需要依赖丰富的经验,整个部署过程会比较复杂。在实际的生产环境中,安装和配置集群需要 在大模型的算法开发层面,从PB级数据的爬取、清洗、过滤和质检,到大规模预训练的算法设计、性能优化和失效管理;从指令微调数据集的设计到人类反馈强化学习训练的优化,冗长的开发链条意味着诸多的工程化工具的支撑。因此,如何加速模型生产、促进生成式AI落地应用,也当前业界关注的重点。 在大模型的部署与应用层面,在当前商业模型与开源模型能力表现各有专长的现状下,如何选择最为合适的基础模型,以及如 何 基 于 基 础 模 型 和 行 业 特 点 , 打 造 应用,实现大模型的落地依然是当前大模型在部署和应用上最大挑战。 浪潮信息的探索与实践 大模型的研发和应用涉及到多个不同的环节和团队的协同,需要硬件选型、网络设计、集群调优、算力调度、数据治理、算法架构、工程优化等多维度专业技术团队、软件工具和专家经验的支撑。 洗、格式转化、数据质量评估的完整流程和工具链,并完成了5TB高质量中文数据集的清洗工作。“源”大模型的数据集和清洗经验和帮助国内不少AI团队提升了其大模型的性能表现。 在“源”大模型的研发过程中,如何高效调度千卡规模的算力,以及保障训练任务的长期稳定运行是团队重点关注和解决的一个问题。通过对云原生的调度系统进行了改造来大幅加速其启动速度,并重点解决了RDMA网络在容器中的接入和适配优化,团队较好的构建了一套能够满足大模型需求的算力调度系统。另外团队引入了多种对集群性能的监控手段和性能数据分析方法来保障训练任务的长期稳定运行。 浪潮信息长期致力于人工智能算力基础设施产品的研发,其中AI服务器方面,以丰富的产品和领先的性能,市场份额常年全球领先。在产品研发、客户需求、实际应用中,浪潮信息的AI团队在AI算力系统的性能调校和优化方面积累了丰富的经验。这些经验不仅沉淀在产品上,助力浪潮信息AI服务器多年来在全球最具影响力的AI基准性能评测MLPerf的训练和推理取得了优异的成绩,也帮助客户在集群架构及软硬件层面解决了诸 多 如 C U D A 初 始 化 失 败 、 G P U 掉 卡 、p2pBandwidthLatency延迟过高、NCCL通信性能低,GPU direct RDMA 未使能等问题。 如何提升大规模分布式训练的计算效率一直是大模型预训练的一个核心问题。特别是在实际的AI集群环境中,可能存在GPU之间的互联带宽受限或者AI服务器之间的网络互联带宽有限的情况下。基于“源”大模型的研发经验,2022年以来,浪潮信息的AI团队协助多个客户把大模型训练的GPU峰值效率从30%左右提升到50%。从而大幅加速了模型训练过程。 浪潮信息在2021年9月发布了参数量为2457亿的中文大语言模型“源1.0”。在“源”大模型的研发过程中,浪潮信息的AI团队逐步建立了完整的从公开数据爬取到数据清 OGAI: 大模型智算软件栈 为了满足大模型开发和应用在算力基础设施上的需求,浪潮信息发布了大模型智算软件栈OGAI“元脑生智”。OGAI(Open GenAI Infra)是浪潮信息面向以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。 型计算对算力的需求,OGAI在不同的层次强调了性能优化,从服务器BIOS的调教到大规模集群组网性能和算力调度策略的多尺度、多层次的性能优化,来充分释放AI集群性能。另外,OGAI也融合了浪潮信息在MLPerf性能评测、服务客户实际需求、源大模型开发中的最佳实践。 在设计理念上,OGAI秉承全栈全流程、算力充分释放、实战验证提炼的设计原则。OGAI从当前大模型算力建设、模型开发和应用落地的实际需求出发,提供从集群环境搭建到算力调度、大模型开发的全栈软件;并覆盖大模型从数据处理到预训练和微调到多模型管理的整个研发流程。为了满足大模 OGAI软件栈由5层架构组成,从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。 4.1整体架构 低延迟RDMA网络 易于使用的开发环境和作业管理界面,并基于内置算力调度系统和训练稳定保障系统来实现易于接入、按需分配、弹性扩展和和高效稳定的AI研发应用支撑平台。 L0层智算中心OS的定位是面向智算中心等公共算力服务平台,面像多租户场景,提供灵活多样的以裸金属为主的AI算力服务。 L1层PODsys聚焦于AI集群部署场景,提供了包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度一整套工具链,旨在打造一个易用、高效、开放、兼容的智算集群系统环境部署方案。 L3层YLink聚焦于大模型的开发过程,通过集成整合浪潮信息在大模型研发过程中的工具和开源工具,为用户提供高效、便捷与标准化的大模型开发与优化流程。 L2层AIStation聚焦于AI开发场景,通过云原生技术对集群系统中的计算资源、存储资源和网络资源进行统一的接入和纳管,提供了 L4层MModel定位于多模型管理与服务平台,帮助客户更好的管理和评估模型,加速模型的部署和应用。 智算中心OS是浪潮信息面向提供公共算力租赁服务的智算中心场景,满足以裸金属为主的多样化、弹性的AI算力需求为核心的智能算力运管平台。 4.2智算中心OS 度平台,实现物理计算资源(CPU、 GPU、内存、存储等)的统一管理与监控,通过智算中心OS提供生成式AI所需的无损裸机算力环境,具有计算零损耗,最大化CPU、GPU算力和高性能裸金属网络。具备批量快速部署系统能力,可在30分钟内完成百台裸金属自动配置IP、存储等。支持系统盘、数据盘使用远端存储和VPC网络,并提供远程控制台方便操作,实现基础资源即服务(IaaS)。 性能优异、按需取用、灵活扩展的智能算力是大模型研发的关键,智算中心应运而生。智算中心就是要满足的不同行业、不同领域对大模型研发对算力的使用需求。不同行业、不同算力使用角色对算力的需求形式也是多种多样,如能满足性能需求的裸机算力服务。对于众多组织和角色也需要的统一管理,并做到租户隔离和数据安全性的要求。算力的规模化与多样化、用户和组织的复杂化需要一体化智算中心的运营运维平台来提供专业、高效的智算服务。 智算中心OS通过统一门户提供GPU裸金属算力服务,并提供多租户的统一门户管理,实现算力服务快速交付,在精细化的配额管理下,实现租户级别的算力配额管理,满足定制化的算力供需,并提供租户隔离、数据安全等功能。多元算力统一管理调度,避免重复建设,简化各IT系统的运维复杂度。 生成类AI训练业务对算力、通信性能的高要求,就要整套算力系统提供性能优越、无损耗的裸机服务,能够快速为算力用户提供标准算力服务输出。同时,大模型训练是人员参与众多、流程复杂的系统性工程,需要对多租户、多种人员角色进行协同统一的管理,对资源灵活、快速的分配。因此需要提供裸金属服务,直接为用户提供独占式的物理服务器资源,满足用户特定需求的可行性及高效性。 智算中心OS提供多样算力服务和功能形式,通过专业的计费引擎,支持资源的细粒度计费与多种计费模式。 主要提供功能如下: 目前业界共识,大模型效果随着数据质量提高带来巨大提升,对高质量数据的使用和安全管理也是智算中心需要着重考虑的问题,独占式的裸金属资源能够快速解决用户极其关注的数据使用和安全问题。 • 统一门户:通过统一门户提供 GPU 裸金属等大模型训练算力; • 多级管理:多租户的统一门户管理,算力服务快速交付; 智算中心OS基于通用、规范的拓展接口,以算力平台提供数据安全保护、网络安全防护和深度结合,依托智算中心 OS 的管理调 • 配额管理:细粒度的租户算力配额管理,定制化算力供需; • 对外运营:通过多种方式销售算力,提供算力服务; •完善健全的运维能力:精细化监控与智能运维、全方位运维。 PODsys是浪