AI智能总结
⽬录⽬录内容云函数超级节点原⽣节点技术⽀柱 3调度重构体验重构创新场景 1三⼤挑战算⼒能效成本 智能化转型的三⼤挑战素材采集,数据脱敏,数据加⼯,数据归档,模型训练,模型推理,峰值需要消耗数百卡GPU,资源效能瓶颈授权客户数据分析,CPU实际利⽤率在10%-15%之间固定资源 算⼒需求爆发数万核的CPU 技术⽀柱云函数超级节点原⽣节点 资源选型向导是否容器化是虚拟机包⽉/按量否对接云函数否云函数1.⽀持容器镜像2.⾃带50000 TPS⽹关3.主动弹性扩容超级节点1.Serverless容器2.POD独享虚拟机,提供虚拟机基本的隔离性,推荐POD Req和limit配置尽量相等3.启动快,冷启动10-25s,热启动3-5s4.配合HPA,EHPA,KEDA弹性使⽤最佳,适合通过副本数量来控制弹性的场景5.⽀持包⽉/预留/按量/离线资源6.⽀持预留资源,跨集群复⽤1.腾讯⾃研能⼒全⾯加持,内核增强2. FinOps 产品化⽀持,⽀持cpu Burst,内存压缩,POD原地重启,POD原地升降配,节点放⼤,按真实负载调度,节点运⾏时⽔位保护,CPU内存磁盘⽹络IO隔离,cpu/gpu在离线混部,业务性能分析等能⼒3.cpu节点2分钟启动,gpu 8卡⾮hcc节点3分50秒启动4.⽀持包⽉/按量资源,⽀持GPU虚拟化5.适合POD req和limit配置不相等,本集群分时复⽤资源6.建议包⽉资源配合超级节点按量,超级节点负责弹性,原⽣节点负责混部 云函数SCF,⽆需运维,极致弹性聚焦核⼼业务逻辑•⽆改造:⽀持上传容器镜像,兼容传统Web 框架•更易⽤:⼀键部署,全⾃动运⾏上传业务代码/镜像,声明业务运⾏的规则•极致弹性:基于实际请求⾃动起机器,毫秒级极速动态扩缩容•超⾼可⽤:⾃动跨Zone容灾,多集群部署容灾机制•安全隔离:⾃带租户级强隔离,保障业务安全运⾏•按量付费:按量毫秒级精确计费,只为代码实际运⾏时长付费,⽆资源常驻成本基于实际请求动态拉起机器,运⾏业务逻辑⽆需运维底层资源极致弹性扩缩容跨区容灾机制⾃来⽔式计费模式不为闲置资源付费触发3编写1⾃动化弹性执⾏4按需计费5部署2触发3……云产品事件代码API/SDKSCF 超级节点——极低门槛像管理⼀台 Node ⼀样管理 Serverless 资源 添加“节点”使⽤ Serverless 容器服务多种超级节点管理模式客户运维平台 物理机node物理机node物理机node物理机nodevm node超级节点客户IDC客户集群腾讯云TKE集群IDC集群管理超级节点云上使⽤超级节点⽆需扩容服务器 TKE Serverless⽆需扩容服务器触发CA创建Node加Node到集群拉取镜像创建pod超级节点超级节点原⽣K8S集群节点扩容多种计费策略包⽉模式TKE Serverless按量计费混合计费•⽀持workload 按 pod数⽐例调度⾄超级节点、或者优先调度⾄普通 node 或超级节点可控调度策略•⽀持特权容器•⽀持hostpath 、hostPID、hostIPC•⽀持daemonset ⾃动注⼊•⽀持debug pods兼容原⽣K8S•扩容⽆需创node•缩容⽆需drain node•⼀个超级节点同时⽀持包⽉和按量计费,0 成本预留 buffer•最优包⽉资源量推荐混合计费,助⼒降本(计划 5 ⽉ GA) 低迁移成本复⽤原平台、原集群兼容原⽣ K8S低运维成本⽆服务器,⾼效扩缩容底层故障不影响服务成本管控灵活强成本管控多种计费,易灵活组合Pod pending 超级节点——极⾼价值⽐原⽣K8S更安⼼的Serverless 容器服务多种资源供给⽅式TKE Serverless⾼可⽤及故障⾃愈(母机打散调度及⾃愈)秒级扩容容器资源池CVM资源池腾讯内部资源池故障母机1PodA-2重调度PodB-2PodA-1正常母机1PodB-1PodA-1正常母机1PodB-1母机故障⾃动触发重调度调度默认在母机层⾯打散Pod pending触发CA创建CVM添加节点到集群拉取镜像创建pod拉取镜像创建podTKE Serverless 冷启动耗时(<25秒)原⽣K8S集群节点资源耗尽情况下耗时(约3分钟)创建podTKE Serverless 预付费模式/计划弹性模式 耗时(<5秒) •计划弹性(计划 6 ⽉ GA)•⽀持3000/min的并发弹性•计划内弹性100% 资源供给保障•计划内弹性特殊优惠计划弹性(计划 6 ⽉ GA)•每个Pod运⾏于独⽴安全沙箱(基于腾讯⾃研轻量虚拟化技术),零容器逃逸风险内核级隔离•集成eBPF技术实现微粒度⽹络策略控制⽹络隔离超级节点保护海量扩展能⼒Pod 原地升级⽀持Ipv6⽀持 Pod 固定IP内存压缩降低 OOM•防误删•节点 not ready pod 不受影响极致简化运维⾃动化镜像缓存⾃动检测GPU坏卡⾃适应调整容器标准输出占⽤⼤⼩⾃适应调整ipvs模式下的udp timeout磁盘写满后原地重启清理临时⽂件 TKE 原⽣节点-FinOps 3创新场景调度重构体验重构 智能辅助驾驶:百Gb吞吐数据处理,算⼒错峰复⽤实现最优成本智能辅助驾驶-研采车合规脱敏离线处理场景解决⽅案:任务实时接收进⼊待执⾏队列:离线数据上云后,先进⼊队列,等待在线业务释放GPU资源后进⾏批处理任务智能调度:在线任务释放出可⽤资源后,智能调度离线任务。在线任务区主要调度时段:6:00-23:00资源规模:千张GPU卡离线任务区主要调度时段:23:00-6:00浮动占⽤时段:6:00-23:00智能调度GPU弹性伸缩CFS TurboGoosefs数据输⼊层计算调度层触发器队列请求缓存量产车在线脱敏(T+1⼩时处理完成)研采车离线脱敏(T+1天处理完成)动态GPU资源池调度控制器⾼性能存储加速器落地效果:使⽤700+卡即可同时完成两个业务1600+TB/天的数据处理,⽆需为离线任务新增300+GPU卡,总成本降低30%错峰调度资源复⽤ EMR on TKEYarn-RMCVM2EMR集群Yarn-RMCVM1Yarn-RMCVM3Task on TKE基于预测的回收•TSP•监 听TSP基于本地实时⽤量的回收•• ⽩天推理, 晚上训练 Thanks