您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国信通院]:高质量大模型基础设施研究报告(2024年) - 发现报告

高质量大模型基础设施研究报告(2024年)

建筑建材 2025-01-15 中国信通院 王泰华
报告封面

高质量大模型基础设施研究报告 (2024年) 中国信息通信研究院人工智能研究所2025年1月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 随着大模型技术的飞速发展,模型参数量急剧增长,模型能力持续增强,智能应用百花齐放。基础设施的可用性决定了大模型研发及服务的效率,大模型服务的可用性又决定了智能应用的服务质量。在此背景下,高质量大模型基础设施成为推动大模型应用落地的关键要素。 目前,大模型基础设施普遍面临可用性低、稳定性差等问题,亟需从计算、网络、存储、软件和运维等多层面协同优化。在同等计算资源条件下,通过多系统协同优化提升基础设施可用性,不仅可以提高大模型开发效率和服务能力,还能有效降低应用成本,加速大模型规模化落地。 本报告聚焦大模型基础设施的五大核心能力领域:计算、存储、网络、开发工具链和运维管理,系统梳理了大模型发展对基础设施提出的新需求,剖析基础设施发展的关键技术,并提出体系化评价指标。同时,通过分析业界典型实践案例,为企业建设高质量大模型基础设施提供参考。 展望未来,大模型基础设施将与大模型一起迭代升级,并为大模型的规模化应用提供有力支撑。本报告力求为相关领域的研究与实践提供参考,但难免有不足之处,恳请各位专家和读者不吝指正。 目录 一、 大模型基础设施概述..........................................................................................1 (一) 大模型基础设施概念与特性................................................................ 1(二) 大模型基础设施现状............................................................................ 4 (一) 计算资源分配粗放,利用率低成为新难题........................................ 7(二) 海量数据处理低效,数据存储成为新瓶颈........................................ 8(三) 并行计算规模攀升,网络通信成为新阻碍...................................... 10(四) 模型参数急剧增长,开发效率成为新约束...................................... 11(五) 基础设施故障率高,运维能力成为新挑战...................................... 14 三、 大模型基础设施关键技术................................................................................15 (一) 高效算力管理调度技术...................................................................... 15(二) 高性能大模型存储技术...................................................................... 16(三) 高通量大规模网络技术...................................................................... 18(四) 高效能大模型开发技术...................................................................... 20(五) 高容错大模型运维技术...................................................................... 22四、 高质量大模型基础设施评价指标....................................................................23(一) 指标体系.............................................................................................. 23(二) 指标定义.............................................................................................. 25五、 高质量大模型基础设施典型实践....................................................................27(一) 案例一:Meta大模型基础设施实践................................................. 27(二) 案例二:蚂蚁集团大模型基础设施实践.......................................... 29(三) 案例三:某科技公司大模型基础设施实践...................................... 31六、 总结与展望........................................................................................................33附录 高质量大模型基础设施规划建议....................................................................35 图 目 录 图1大模型基础设施架构图....................................................................................1图2大模型基础设施能力矩阵................................................................................2图3大模型全生命周期对大模型基础设施的关键需求........................................7图4大模型基础设施网络互联..............................................................................20图5高质量大模型基础设施评价体系..................................................................24图6 Meta AI集群系统框架图............................................................................... 28图7蚂蚁大模型基础设施架构..............................................................................30 表 目 录 表1大模型基础设施技术能力评价指标..............................................................25表2大模型基础设施性能评价指标......................................................................26 一、大模型基础设施概述 大模型技术作为人工智能领域的突破性进展,正迅速推动各行各业的智能化转型。随着参数量的增长,大模型展现出强大的理解能力和复杂数据处理能力,在金融、医疗、政务等行业的应用日益广泛。然而,参数量的增加也给大模型落地带来了巨大的挑战,提高大模型基础设施能力,满足大模型全生命周期对基础设施的新需求成为首要任务。 (一)大模型基础设施概念与特性 大模型基础设施是指支持大规模人工智能模型(如大语言模型、多模态大模型等)训练、部署和应用的硬件和软件资源的集合,它包括高性能计算、海量数据存储、高速网络连接资源,以及相应的软件框架和工具链,旨在为大模型的开发、训练和推理提供高效、可靠和可扩展的支撑环境。大模型基础设施整体架构如图1所示。 大模型全生命周期要求大模型基础设施具备高可用、高性能、可扩展、可评价等特性。大模型基础设施能力如图2所示。 (1)高可用:稳定的大模型业务支撑能力 高可用是指在提高大模型基础设施平均无故障运行时间(MeanTime Between Failures,MTBF)的同时考虑更短的平均故障定位时间(Mean Time to Identify,MTTD)和平均故障恢复时间(Mean Time ToRecovery,MTTR),综合考虑存储、运维、开发软件等维度。 可用度是指大模型基础设施集群在一定时间内提供正常服务的时间占总时间的比例,通常用百分比表示。数据显示,当前集群可用度普遍低于50%。Meta 50000+卡训练任务1和OpenAI GPT-4 25000卡训练任务集群算力可用度在30%~40%之间,英伟达Megatron-LM和微软MT-NLG 10000+卡训练任务的集群算力可用度在40%~50% 之间,字节跳动万卡集群MegaScale集群算力可用度仅达55.2%2。大模型基础设施的可用度仍有较大提升空间。 平均无故障运行时间是全系统维度的考量,指大模型基础设施运行时相邻两次故障之间的平均工作时间,也称为平均故障间隔。平均故障定位时间是运维维度上的考量,指大模型作业运行时,基础设施集群出现故障到故障首次被发现的平均时间,关注的是故障定位效率。平均故障恢复时间是存储、开发软件、运维等维度的考量,指大模型基础设施发生故障后修复所需的平均时间,关注故障恢复效率。 (2)高性能:高效的大模型业务运行能力 高性能是指提高大模型基础设施的算力供给能力。算力供给能力即“大模型基础设施算力规模”乘以“算力利用率”,综合考虑计算与开发软件等维度。 算力规模和硬件算力利用率是计算维度的考量,算力规模指大模型基础设施理论计算规模,计算方式为“单节点算力规模”乘以“节点数”,理论算力规模数值越大,代表潜在的计算能力越大。硬件算力利用率(Hardware FLOPs Utilization,HFU)是指考虑重计算后,模型一次前反向计算消耗的矩阵算力与机器算力的比值。硬件算力利用率越高,代表资源利用越充分。 (3)可扩展:资源需求与技术发展的共同选择 可扩展指的是大模型基础设施在负载增加时,通过增加资源维持或提高性能的能力,在具备扩建能力的同时,兼具技术兼容的特性。 在资源需求上,可扩展性体现在既有基础设施的扩建和有效利用上。随着企业大模型业务需求的不断增长,在成本控制的背景下,企业希望充分利用既有基础设施,对现有基础设施升级改造同时预留二次升级改造的接口,以适应不断发展的大模型业务需求。 在技术发展上,可扩展性体现在对计算、网络、存储、开发、运维等技术的“前”向接口兼容和“后”向更新迭代上。计算软件、网络协议、存储软件、开发平台和运维平台等应支持不同品类、不同协议、不同技术路线的硬件产品,以实现大模型基础设施的可扩展。 (4)可评价:多角度反映大模型基础设施应用成效的多元评价 可评价是指面向大模型应用场景,大模型基础设施可通过完整、有效的评价体系反映其赋能成效。 当前大模型基础设施评价体系