您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国数据智能管理峰会]:云原生离线在线资源混部实践 - 发现报告
当前位置:首页/其他报告/报告详情/

云原生离线在线资源混部实践

2023-04-15周昕毅中国数据智能管理峰会天***
云原生离线在线资源混部实践

云原生离线在线资源混部实践演讲人:携程-周昕毅 -资源混部的前世今生-携程第一代混部:虚拟化,胖容器-Spark, K8S or Yarn?-技术储备:Kernel/OS/K8S/弹性能力-携程第二代混部:云原生混部技术-总结和展望 About Trip.com• 一站式OTA平台• 机票/酒店/火车票/旅游预订服务• 国内&海外业务About CloudTeam@Trip.com• Provide CloudInfraServiceforboth Online and Offline workloads• Virtualization, Cloud Networking, Cloud Storage,Kernel&Security 资源混部-起源在线服务离线作业延迟敏感,直接影响用户体验延迟不敏感,可以接受重试典型:搜索,web应用典型:大数据分析,AI训练任务白天流量高,和用户行为相关凌晨执行T+1任务消耗资源量大Online固定资源池Offline固定资源池混步资源池 资源混部-前世在线BM node离线BM node在线VM node离线VM nodeCPU利用率20%-30%忙时利用率90%-100%闲时利用率5%-10%JavaNode-JsOnlineServiceSparkYarnOfflineJobNode角色切换 资源混部–第一代:虚拟化OpenStack–Nove/NeutronKVM nodeApp VMApp VMYarnVM凌晨1点自动拉起,6点销毁-KVMnodeCPU超配-凌晨额外启动YarnNodeManagerVM,资源汇报到YarnResourceManager-混部资源分析:KVM宿主机平均内存使用率约60%,凌晨CPU使用率显著下降,具备超配空间 资源混部–第一代:胖容器KubernetesK8s nodeApp PodApp PodYarnPod凌晨1点自动扩容,6点缩容-胖容器的混部架构与VM混部一致,仅仅用Kubernetes调度替换了nova调度-容器固定ip,域名提前申请(kerberos证书签发及域名反解)-相比VM混部的优势:镜像维护和更新方便,扩容、缩容耗时从分钟级降低到秒级。 资源混部–第一代:面临挑战-资源隔离问题-在线资源池机房和离线资源池机房之间的网络带宽需求-KVM、K8S 在线资源池宿主机平均分配率较高时,混部可用资源规模受限-定时任务不能覆盖所有场景,人肉运维 云原生& Kubernatize‘Offline’Workloads-Jim Zemlin: Kubernetesis becoming the Linux of the cloud(2017) -2019开始,Spark/Flink/Kafka/Tensorflow等大数据开源框架纷纷推出KubernetesNativeintegretion-OfflineJob对原生Kubernetes方案带来挑战:-GangScheduling(ML训练任务的特殊需求)-吞吐量指数级上升(创建、删除5K+Pods/Perminute)-CPUquota/SharevsOnlineWorkload低延迟的诉求-网络IO及磁盘IO的隔离能力是否能满足需求 Spark, on Yarn or on K8S?-SparkOnK8S优势-Spark依赖打包容器化-Namespace级别资源管控-更好的权限、APIGroup-作业提交版本控制(imagetag)-SparkOnK8S劣势-传统大数据生态的改造成本-现有系统对接成本高-Yarn统治大数据workload调度的前十年-折衷-部分新业务场景onK8S-Yarnnodemanager通过K8S调度 技术储备–在线应用HPA落地 技术储备–Kernel & Cloud networking 技术储备–Yarn Node Manager on k8s 技术储备–K8S抢占式调度K8S NodeP0APPpodP1APPpodSparkpodPendingP0APP-pod抢占 技术储备–Spark Remote Shuffle Service 资源混部-今生Kubernetes调度HPAVPA监控抢占node1node2node3App podApp podSpark podApp podSpark podSpark pod 总结和展望-资源利用率提升,降本增效是技术团队不变的追求-拥抱云原生-Better utilization of resources, faster provisioning, better governance. THANKYOU!