您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:弹性计算「2024云栖大会」容器计算演讲合辑 - 发现报告

弹性计算「2024云栖大会」容器计算演讲合辑

2024-12-23-阿里巴巴x***
AI智能总结
查看更多
弹性计算「2024云栖大会」容器计算演讲合辑

容器计算专场:新品发布与行业实践 海量电子手册免费下载 导论 在【2024云栖大会】中,阿里云弹性计算容器服务负责人易立携弹性计算团队容器计算多位内部专家带来两场高质量session演讲,本书内容整理自上述嘉宾的演讲内容,供各位开发者学习。 目录页 阿里云容器服务,智算时代云原生操作系统.............................................6ACKOne分布式云容器企业级落地实践...............................................25阿里云容器计算服务ACS,更普惠易用、更柔性、更弹性的容器算力.43阿里云容器服务助力企业构建云原生软件供应链安全............................73拥抱智算时代:阿里云容器服务智能、托管、弹性新体验.....................93阿里云容器服务在AI智算场景的创新与实践.......................................117阿里云ACK容器服务生产级可观测体系建设实践................................126阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案.......151阿里云ACKOne注册集群云上弹性:扩展业务新利器......................163阿里云ACK高可用稳定性最佳实践...................................................172阿里云ArgoXK8s玩转工作流引擎,实现大规模并行计算.................186阿里云ACKFinOps成本优化最佳实践...............................................195云原生AI加速生成式人工智能应用的部署构建....................................201 阿里云容器服务,智算时代云原生操作系统 本文整理自2024云栖大会阿里巴巴研究员、阿里云容器服务负责人易立演讲 2024年云栖大会,是我个人第十次分享阿里云容器产品技术的进展。非常荣幸能在云原生技术蓬勃发展的这个时代,帮助到的客户与开发者们利用容器技术在云端构建云原生的基础设施、研发流程与应用架构。在智算时代,我们从心出发! 今年是Kubernetes十周年,在这10年间。我们已经看到其成长为云原生操作系统,向下高效调度多种算力资源,屏蔽基础设施差异,向上提供统一编程接口,支持多样化工作负载。 阿里云容器服务产品已经覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。 容器技术,不但已经助力千行百业众多的客户互联网架构升级。今天容器服务也在帮助越来越多的客户实现数字化、智能化创新。容器技术已经成成为了自动驾驶、AIforSciense,大语言模型训练等创新应用的技术基础设施。 在这个夏天,阿里云成功支撑了巴黎奥运会的赛事服务和全球转播。阿里云容器服务,助力众多赛事系统以云原生的方式在云端稳健、高效运行。 奥运直播中“子弹时间”特效,它捕捉了运动的惊艳瞬间,用全景展示了力量与美的结合的细节。其背后的多镜头回放系统,通过收集多角度赛场镜头数据,使用云端的ACKGPU集群进行实时的空间重建与3D渲染,能在数秒内完成处理并与赛事直播融合。让体育赛事获得全新的视觉体验。 奥运官网,基于云端ACK集群提供跨地域、跨可用区的高可用架构,在全球范围内提供了稳定、可靠的服务。 在今年9月,权威咨询机构Gartner发布的容器管理魔力象限中,由于在公共云、专有云、混合云等完善的容器产品体系,阿里云蝉联全球领导者,亚洲唯一。 去年我们发布了ACS容器算力产品,为ACK集群和ACSServerlessK8s集群,提供统一支持通用计算与加速计算的Serverless容器新算力。今年迎来了它的重磅升级:它具备如下的能力 ∙极致弹性:基于用户负载特征的预调度优化,大规模扩容速度从7KPod/min提升至10KPod/min。 ∙动态柔性:在应用运行过程中,所需CPU资源量存在波动性,比如Java应用启动过程中需要更多的CPU资源,但是如果为业务峰值分配资源,就会造成不可避免的浪费。ACS支持CPU资源的秒级按需热变配,可以轻松实现应用启动加速。 ∙普惠易用:ACS算力有更细粒度的规格,可以更加贴合应用需求分配资源,降低资源浪费。按天承诺节省计划(SavingPlan),非常适合每天潮汐业务通过弹性降本,在典型场景中,算力成本下降55%。 随着计算弹性的增强,网络与存储也需要进一步提升弹性能力。 当前,AI和大数据业务的发展非常迅速,对网络延迟和吞吐的要求越来越高,传统TCP/IP网络已经无法满足相关场景的需求。RDMA解决了这些痛点问题。相对于TCP/IP,RDMA实现了零拷贝、内核旁路等特性,避免了拷贝、频繁的上下文切换等开销,相较于TCP/IP的通信,达到了低延迟、高吞吐以及低CPU占用。然而,传统RDMA需要专用的硬件 设备,成本高昂,导致RDMA技术一直无法普及。 阿里云基于第四代神龙CIPU,自研了eRDMA技术,让用户可以直接在ECS上享受RDMA网络带来的优势,不需要任何额外的成本。 ACK深度集成了eRDMA的能力,基于NCCL、MPI的应用可以无缝迁移到eRDMA上运行,传统应用也可以通过SMC-R和NetACC实现自动加速,无需修改代码针对RDMA适配。根据我们的测试,基于SMC-R的Redis服务,性能相比TCP提升了10%~30%。ACK开源的网络监控组件kubeskoop中内置了eRDMA的可观测能力,通过监控大盘可以清晰地看到节点上eRDMA的各项监控指标。 随着Kubernetes技术的不断成熟,越来越多的数据密集型服务工作负载正加速向云原生环境迁移。不同于无状态(Stateless)的微服务应用,这些负载对存储解决方案提出了更多的需求。 尤其是在大数据处理与人工智能领域,高效的临时数据访问成为了重要的场景。无论是 分布式的数据缓存、大数据处理中的中间结果shuffle,还是海量日志分析处理,都对存储系统的吞吐性能提出了极高的挑战。 弹性临时盘是针对临时数据存储而设计的一种新型块存储产品,它不仅具备本地盘的超高吞吐性能,还融合了云盘的弹性扩展优势,与云盘相比具备更优的性价比。让鱼和熊掌可以兼得。 您可以在ACK集群中通过PVC/PV的方式使用,也可以作为数据盘挂载到ECS节点,满足您的多样化需求。 在对数据高可用性有严苛要求的场景中,比如数据库与中间件服务,我们往往采取的是在不同的可用区内部署多个实例,并在应用层面实现数据的同步复制,以此来保障系统的稳定运行。然而,这一做法同时也带来了数据一致性的挑战以及运维复杂度的提升。 跨可用区云盘是阿里云推出的同城冗余块存储,提高了数据可用性和灾难恢复能力,可以帮助用户实现更加简化的数据高可用架构。 技术初创公司AutoMQ,基于RegionalESSD云盘,实现云原生消息队列数据跨可用区高可用存储,通过NvmeReservation和PowerFencing等技术保证数据的一致性,可以实现在可用区故障时秒级故障切换,有效保障了业务连续性。 AGI的实现不仅需要海量的算力,也需要对算力的高效调度和利用。Gartner分析师预测-“到2027年,超过75%的AI部署将使用容器技术作为底层计算环境” 我们结合多年服务客户和云产品AI平台实践经验,沉淀出CloudnativeAI参考架构,致力于推动云原生和AI两个领域的系统化融合。 云原生AI参考架构聚焦:几个层次。 ∙利用云原生技术充分发挥AI基础设施的高性能、大规模优势,包括对GPU的轻量虚拟化,并行文件存储CPFS,高性能网络RDMA,以及高性能智算集群-灵骏等的支持。 ∙通过高效AI资源调度和任务编排,协同优化AI应用性能和资源利用率,同时让AI系统具备更好的弹性与稳定性。 ∙支持开放生态和可扩展架构,广泛集成AI云服务、开源AI生态,支持ISV应用框架,比如NvidiaNIM。支持企业构建高效的云原生AI平台,加速AI创新落地。 下面我将介绍几个关键能力增强: GPU集群的效率与稳定,很大程度上影响了AI任务执行时间与成本。在Meta发布的报告中指出,在Llama3.1训练的万卡集群中,平均每3小时发生一次故障。GPU故障的快速定位,快速自愈,和性能瓶颈分析已经成为实现分布式模型训练中重要的工程挑战。 ACK持续优化GPU可观测性和故障自动处理能力。GPU监控大盘默认提供40余种GPU相关监控指标。基于ebpf技术,实现轻量级GPU实时profiling,可以按需开启追踪分析AI任务性能变化。 ACK加强了对GPU故障的自动化发现与隔离,可以按需自动重新调度AI任务。实现典型GPU故障的自发现、自恢复,有效提升K8s平台GPU故障处理效率50%以上。 大语言模型庞大的参数量导致推理服务的冷启动速度非常缓慢,严重影响了模型的响应能力和弹性。以Qwen1.5-72B-Chat为例,其模型参数文件总大小约为134.6GiB,直接从远程对象存储拉取模型时,端到端启动耗时高达635秒,超过10分钟,这在弹性扩展场景中是不可接受的。 为了解决这一问题,我们通过结合镜像加速套件与Fluid技术,采用无侵入的手段,大幅提升模型启动速度: (1)镜像启动加速:支持按需镜像加载,同时通过P2P技术提升大规模分发性能,实现GPU应用镜像下载提速80%以上。 (2)Fluid在Kubernetes集群内部建立分布式缓存,大幅减少模型拉取时的网络延迟;支持缓存的弹性伸缩,满足数据吞吐与成本诉求;通过数据亲和性调度,减少数据传输;支持模型数据预热与异步预读,进一步提升模型加载速度。可以将Qwen72B模型启动时间从原先的635秒缩短到40秒。 通过这些优化手段,可以让启动延迟降低85%以上,极大地提升了大语言模型推理服务的弹性和响应速度。 智算 、超算、大数 据应 用云原 生一体 化已成 业界 趋势。越来 越多 的客户 希望基于Kubernetes实现对底层资源的统一管理,实现对AI、HPC、大数据应用的统一支持,简化运维管理,提升资源效率。 今年我们发布了对Ray和SlurmonACK的支持,可以帮助用户在ACK集群统一调度各类任务,具备更好的弹性、安全与可观测性。所有这些计算框架都可以通过应用目录一键获得。 我们也在与社区一起推动更多的计算类负载云原生化。欢迎大家一起共建发展。 在资源弹性方面,去年ACK发布了即时弹性节点池,用来解决弹性场景下启动效率、确定性以及易用性的问题。即时弹性得到了进一步完善: ∙在弹性效率上有了进一步提升,能够在算力缺口时35s内节点就绪。 ∙通过与ECS库存感知能力,实现了99.9%的弹性扩容成功率。 ∙即时弹性节点池与ClusterAutoscaler选择固定资源配置的规格不同。即时弹性节点池支持简化的机器规格配置,根据资源缺口、topology需求和库存情况智能筛选符合需求ECS规格,并提供扩展机制允许用户自定义规格筛选策略。平衡客户在弹性成本,成功率与确定性等多方面的诉求。 即时弹性节点池帮助汇量科技自动筛选ECS规格大幅降低运维复杂性;弹性效率加速保障大规模集群下批量节点扩容,节点就绪耗时35s无衰减,从容应对业务高峰期弹性扩容。 应用弹性是很多客户对K8s的核心诉求,但是用好却非易事。开发者需要对应用负载有很好的理解,凭借历史经验,才能为每个应用定制合理的弹性规则。然而随着业务的不断变化,也需要进行针对性的调整。 我们近期将发布弹性“辅助驾驶能力”借助机器学习算法持续对应用容量,变化趋势进行分析预测,为应用生成资源画像。基于这个画像,我们可以智能化地生成HPA,CronHP