AI智能总结
国产适配:异构算力管理与成本优化 主讲人:吴伟-腾讯专有云PaaS平台TencentTCS 1、趋势与挑战 2、TencentTCS异构算力管理平台解决方案 3、成功案例 算力短缺的背景下,加速芯片类型呈现出多元化的趋势 2024年中国加速服务器市场规模达到221亿美元,同比2023年增长134%。 到2029年将超过千亿美元,其中非GPU服务器市场规模将 接近50%。 2024年,中国加速芯片的市场规模增长迅速,超过270万张。从技术角度来看,GPU卡占据70%的市场份额。 注:2022年中国加速芯片出货量约为109万张,其中英伟达市场 份额约为85%。 《中国半年度加速计算市场(2024下半年)跟踪》报告,2025年3月,https://www.idc.com/getdoc.jsp?containerId=prCHC53286125 如何高效管理和调度这些异构算力资源 成本高昂、供应不稳,需求激增,这三点勾勒出了中国AI算力的整体发展背景。 大多数AI加速芯片厂商还无法实现规模化出货,更多是以参与混合型算力的方式,加入到企业AI集群的建设当中。由此,异构算力开始成为企业和数据中心新的需求。 算力资源分散难以统一管理 缺乏智能化监控运维及故障 自愈能力 复杂的资源配置和调度 主要挑战 资源利用率低下导致成本飙升 如何高效管理和调度这些异构算力资源,同时保持成本控制与业务增长之间的平衡,成为企业亟待解决的关键问题。 如何提升AI场景的硬件故障运维效率 2024年7月23日,Meta发布了当时最强大的开源模型Llama3.1405B,在其发布的论文中提到: 为期54天训练,发生了419次非预期中断,其中58.7%中断是GPU相关的故障,严重影响训练效率和模型性能。 除了3次人工处理介入,其他故障全部实现自动化处理。 《TheLlama3HerdofModels》 •Approximately78%oftheunexpectedinterruptionsareattributedtoconfirmed •hardwareissues,suchasGPUorhostcomponentfailures,orsuspectedhardware-relatedissueslikesilentdata •corruptionandunplannedindividualhostmaintenanceevents. •GPUissuesarethelargestcategory,accounting •for58.7%ofallunexpectedissues. •Despitethelargenumberoffailures,significantmanualinterventionwas •requiredonlythreetimesduringthisperiod,with therestofissueshandledbyautomation. 对AI场景的硬件稳定性和故障管理上需要投入更多关注,故障的自动处理至关重要 AI应用部署所遇到的挑战 依赖管理复杂 依赖特定库/框架版本/软件版本,易出现兼容性问题 环境配置耗时,部署失败率高 扩展性不足 流量激增时,手动扩容效率低 响应延迟、服务不稳定 环境迁移困难 开发、测试、生产环境差异导致应用无法无缝移植 部署周期长、跨团队协作障碍 由于各种因素,传统的AI应用部署很繁琐且容易出错: 版本控制缺失 模型迭代缺乏标准化记录,回滚和性能对比困难 调试效率低,难以复现历史结果 容器化/Kubernetes是一种有效打包和部署AI应用的技术,它解决了依赖管理、可扩展性、版本控制和可移植性相关的问题。 ... 云原生技术为AI业务创新提供了强大的动力 伴随着AI技术的快速发展,企业对高性能、稳定、灵活且低成本的基础设施需求日益迫切。云原生技术凭借其独特的优势正在成为AI开发与部署的最佳选择,在资源效率和开发部署效率上为AI应用赋能。 云原生AI是云原生不断发展的延伸领域。云原生AI(CNAI)是指使用云原生原则构建和部署人工智能应用程序和工作负载的方法和模式。 •OpenAI从2017开始在AzureKubernetes上进行大规模机器学习的研究与开发,通过利用云原生技术的动态调度、自动扩容、一致性等优势,带来了显著的成本降低及快速迭代业务创新。(参考文献:https://kubernetes.io/case-studies/openai) •Google提供的GCP平台的产品—CloudRun和GoogleKubernetesEngine(GKE)帮助AI抽象基础设施、协调工作负载,为AI工作负载提供开放、便携的解决方案。(参考文献:https://www.pnrjournal.com/index.php/home/article/view/1367/1141) •幻方基于云原生技术构建了HAIPlatform训练平台,成功支持在1500+计算节点上稳定运行深度学习训练任务。(参考文献:https://www.high-flyer.cn/en/blog/hai-platform/) 更快的开发与部署 容器化、编排与调度、gang/numa-aware、跨平台一致性、镜像加速、GitOps 云原生AI核心能力 更高的资源利用率 异构算力接入、动态调度、GPU虚拟化、高性能网络与存储 更智能的运维与管理 自动扩缩容、故障自愈、可观测、稳定性 更丰富的技术生态 kubeflow、ML/DL工具和框架 CNCF发布了首份关于云原生人工智能CloudNativeAI的白皮书,2024年3月 1、趋势与挑战 2、TencentTCS异构算力管理平台解决方案 3、成功案例 TencentTCS异构算力管理平台解决方案 TencentTCS异构算力管理平台解决方案,助力企业突破传统算力管理的局限,实现对异构甚至异地的不同算力资源的统一管理与运营能力。 通过提供一站式的异构算力资源整合、调度、运营服务,显著提升资源使用的效率和灵活性,有效控制并优化成本,为企业业务创新发展提供持续动力。 异构算力统一管理 •异构算力集群统一接入 •统一云原生部署规范,快速完成集成与部署 异构算力灵活调度 方案核心能力 •异构算力资源的灵活分配与调度 •拓扑感知调度,提升性能 智能运维与故障自愈 •大规模集群运维实践,提升算力效能 •全面的集群监控管理 •GPU故障检测与自愈 •统一的运维运营门户 资源利用率提升与成本优化 •内核态GPU共享,提升资源利用率 •GPU在离线混部,支撑训推一体业务部署 •FinOps成本中心,精细化运营分析 TencentTCS异构算力管理平台解决方案 异构算力:英伟达、国产卡... 大模型场景:分布式训练、推理等AI应用小模型场景:GPU共享、训练、推理等 异构算力管理与调度 容器存储CSI 高性能容器网络eBPF 容器运行时CRI K8S集群管理 镜像仓库 弹性伸缩HPA/VPA NginxIngress 负载均衡LB 应用编排TAD/Helm 成本中心FinOps CPU/GPU离在线混部 qGPU算力切分 异构算力统一管理 GPU拓扑优选 GPU共享调度 GPU整卡调度 TACO-LLM大模型推理加速引擎 自动化运维 平台管理 统一控制台WebPortal 用户与角色管理用户权限开放APIKubernetesAPISSO支持操作审计 监控告警日志分析快速适配自动部署滚动升级故障自愈 大规模运维实践 异构算力统一管理 •异构算力集群统一接入 •统一云原生部署规范,快速完成集成与部署 异构算力灵活调度 •异构算力资源的灵活分配与调度 •拓扑感知调度,提升性能 高可用 容灾管理DRMS 故障演练Oscar 备份恢复BRMS 多地多中心 资源利用率提升与成本优化 •内核态GPU共享,提升资源利用率 •GPU在离线混部,支撑训推一体业务部署 更多... 更多... 更多... 云资源管理 飞腾ARM 鲲鹏ARM 海光x86 AMDx86 Intelx86 物理服务器 统信UOS服务器版 银河麒麟服务器版 TencentOSServer CentOS/RHEL •FinOps成本中心,精细化运营分析 智能运维与故障自愈 •大规模集群运维实践,提升算力效能 •全面的集群监控管理 •GPU故障检测与自愈 •统一的运维运营门户 异构算力统一管理 异构算力灵活调度 资源利用率提升与成本优化 智能运维与故障自愈 通过多集群扩展能力,支持异构算力集群统一接入 价值: 通过多集群扩展能力,实现对多种异构算力资源(如CPU、GPU、NPU等)的统一接入和集中管理,有效简化资源调度流程、提升资源利用率,并降低运维复杂度。 支持将多个异构计算集群统一接入,提供集中式的资源视图和操作入口,彻底打破资源孤岛,实现全局资源的高效利用。 同时通过注册集群的扩展能力,可无缝管理异地的云外集群,构建真正一体化的算力资源池。 TencentTCS异构算力管理平台 云外集群 国产化子集群 英伟达子集群 国产卡服务器 NVIDIAGPU服务器 通用服务器 Global管控集群 异构算力统一管理 异构算力灵活调度 资源利用率提升与成本优化 智能运维与故障自愈 统一云原生部署规范,快速完成集成与部署,降低适配成本与周期 各家加速芯片厂商提供的部署方式各异,对交付部署、扩容、升级场景下的自动化存在较大挑战: S提供Ansible工具部署,未考虑扩容、升级场景的自动化 K提供Yaml和Rpm包,手动load镜像,无自动化 M提供HelmChart包部署,手动load镜像、设置values值 TAD(TencentApplicationDefinition)云原生应用声明式部署规范 初始化驱动 子集群中添加节点 拉起Daemonset,检测驱动安装,安装runntime 给节点打标签,安装device-plugin和expoter 价值:提供标准化的接入接口与适配框架,实现加速芯片的快速集成与高效部署,显著降低适配成本,大幅缩短部署周期,全面提升系统的灵活性和兼容性。 异构算力统一管理 异构算力灵活调度 资源利用率提升与成本优化 智能运维与故障自愈 异构算力资源的灵活分配与调度 价值: 全面支持国内外主流加速芯片的快速适配,实现异构算力资源的统一分配与智能调度。 Kube-scheduler q TCS调度器 Volcano TCS 插件 G P U 卡切分 更多 … 更多 … 原生插件 通过DevicePlugin框架+扩展资源的机制,高效管理第三方加速设备(GPU、NPU等)。 G a 动 拓 n 态 扑 g 切 优 调 分 选 度 更多... ContainerRunntime ContainerRunntime ContainerRunntime ContainerRunntime Device-plugin Device-plugin Device-plugin Device-plugin 异构算力统一管理 异构算力灵活调度 资源利用率提升与成本优化 智能运维与故障自愈 拓扑感知调度,提升性能 价值: CPU0 CPU1 PCIESwitch PCIESwitch 智能调度器通过感知节点间网络拓扑及节点内部资源互连架构,实现任务性能优化、训练加速,并有效消除实例间的性能差异问题。 NIC GGGGPPPPUUUU Link 0123 4567 在单个节点上配置多张GPU卡时,GPU卡间根据双方是否连接在相同的PCIESwitch或高速Link下,存在远近(带宽高低)关系。 GGGGPPPPUUUU NIC Link Gpu-aware插件通过分析GPU拓扑信息,结合配置中的权重,计算