您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国电信]:黄坚:大规模智算集群的管理与性能调优实践 - 发现报告

黄坚:大规模智算集群的管理与性能调优实践

信息技术 2024-09-30 中国电信 娱乐而已
报告封面

天翼云云网产品事业部研发专家黄坚 演讲嘉宾介绍 黄坚天翼云研发专家 研发方向:云原生、AI算力基础设施 重点关注:•AI智算平台研发工作 •大规模智算集群的性能诊断和调优•国产算力生态适配 目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望 目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望 大模型分布式训练 模型并行 大模型分布式训练 •计算密度大•显存要求高•通信占比大 算力标准化程度非常高 智算集群工程化交付 大集群等于大算力? 最大程度发挥算力的挑战 •挑战1:智算业务与底层算力高耦合•挑战2:故障发现及性能调优,无法依托单一指标•挑战3:百万器件管理复杂度高 目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望 集群性能-单机配置正确性检查 •CUDA/CANN版本•NCCL/HCCL版本•pytorch版本•transformer版本•deepspeed版本•megatron版本 •加速卡驱动•网卡驱动•nvidia-fabric-manager•nvidia_peermem•GPU拓扑•GPU主频•PM模式 集群性能-集群软硬件一致性 •加速卡驱动•网卡驱动•内核版本•操作系统•CPU配置•内存配置 •RDMA网卡配置•RDMA网卡命名•业务面网卡•服务器存储挂载点•CUDA/CANN版本 集群性能-健康检查 •加速卡健康检查•HBM健康检查•加速卡残留进程•RDMA端口状态•RDMA网络连通性•leaf-spine网络链路闪断 •根目录可用量•容器空间容量•防火墙状态•CPU健康检查•内存容量检测•业务网口状态检查 集群稳定性-算力网络拓扑展示 训练任务的告警拓扑展示随时了解训练任务的健康状态 服务器、交换机的告警染色的拓扑形态呈现 随时随地了解智算集群健康状态 训中观测-核心指标解析 •power_usage:GPU是否忙?•gpu_ulitization:有任务占用,粗粒度•sm_active: GPU真正工作•tensor_active:tensor core工作情况•fp64_active:fp64工作情况•fp32_active:fp32工作情况•fp16_active:fp16工作情况 多维度性能基线 丈量开源大模型不同算力的性能表现 •集合通讯基线 模型训练基线加速卡- IB网卡-切分方式-集群规模 •RDMA网络吞吐基线 目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望 云骁智算平台 集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台,提供高性能算力底座、计算加速、故障诊断等服务 集群管理 云骁智算平台-集群稳定性保障 国产化之路 覆盖算力、存储、网络、平台各层次,可支撑大模型训练推理的全国产智算基础设施平台,国内最早提供大模型训练用昇腾算力的云服务商 目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望 智算工程关注点 数万卡集群的算力加速百万级元器件的故障快速恢复 国云注智智算升级