您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:2023腾讯云容器和函数计算技术实践精选集 - 发现报告

2023腾讯云容器和函数计算技术实践精选集

2024-06-18腾讯黄***
AI智能总结
查看更多
2023腾讯云容器和函数计算技术实践精选集

目录 前言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2云监控 Barad 的云原生实践. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3Crane-Scheduler: 真实工作负载感知的调度器设计与实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12FinOps 时代如何玩转应用资源配置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22腾讯云 Serverless 函数跑在 K8s 上,突破企业服务新格局. . . . . . . . . . . . . . . . . . . . . . . . . . . . .33【精彩回顾】Serverless Days 演讲资料大公开!. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43浅谈 K8s Pod IP 分配机制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50云原生场景下,如何缓减容器隔离漏洞,监控内核关键路径?. . . . . . . . . . . . . . . . . . . . . . . . .63Stable Diffusion 腾讯云云原生容器部署实践. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70无处不在的离线算力 -Crane 基于 Virtual Kubelet 的实践. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88Kins(K3s in SuperEdge)海量 K3s 集群秒级部署. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92大规模集群仿真模拟与调度器压测方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .99TKE 注册节点,IDC 轻量云原生上云的最佳路径. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .106将云原生进行到底:腾讯百万级别容器云平台实践揭秘. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .114腾讯全面上云之后的首次春保:这里的夜晚静悄悄. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .120深度复盘 - 重启 etcd 引发的异常. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .124Serverless & 游戏 案例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .139新零售标杆案例:沃尔玛山姆会员店采用腾讯云 Serverless 的应用实践. . . . . . . . . . . . . . .144某在线教育企业采用腾讯云 Serverless 在【全景录制】场景中的落地实践. . . . . . . . . . . . .150降本超 30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践. . . . . . . . . . . .155降本 40%,数数科技大数据查询引擎云原生实践. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .169有赞在使用腾讯云 SCFServerless & 自研云 案例 构建有赞云的落地实践. . . . . . . . . . . . . . .178喜报!腾讯云原生 Serverless SCF on K8s 获信通院技术创新领航者奖. . . . . . . . . . . . . . . . .181结语. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .188 前言 容器(Container)作为当前智能应用的引擎,以其轻便性、可移植性和可扩展性等优点,正在改变着应用程序的开发、部署和运维方式,越来越多的开发者在享受着容器带来的便利,提升应用的部署效率,降低应用开发的成本,提高业务敏捷性和弹性。而作为无服务器架构的函数计算(Serverless),则进一步让开发者专注于业务逻辑,无需关心底层基础设施的管理,也帮助企业快速部署、扩展和管理应用程序,推动数字化转型。据 Gartner 预测,到2025 年,全球预计有超过 75% 的企业将在生产环境中使用容器化应用。 在过去 3 年中,腾讯完成了自有业务的全面上云,并坚定采用了云原生架构,包括 QQ、微信、王者荣耀、腾讯视频、腾讯广告、腾讯文档、腾讯会议等自有业务,和腾讯云百万级外部客户一样基于公有云的模式来开发运营。腾讯自研业务产品云上的资源规模已突破 5000 万核,3 年累计节省成本超 30 亿元,成为国内最大规模的云原生实践。 现在腾讯云为用户提供基于原生 Kubernetes,以容器为核心的、高度可扩展的高性能容器管理服务(Tencent Kubernetes Engine, TKE),覆盖了 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式,为游戏、教育、企业 SaaS、零售等行业的业务上线、运维等提供支撑保障。 随着云原生技术的不断演进,其创造的价值正在从技术价值,走向业务价值,在这一背景下,FinOps 作为一种云成本管理与优化解决方案脱颖而出,它强烈倡导业务团队与研发团队之间的紧密沟通与协作,旨在助力组织实现云成本的精细化管理与最优化利用。如此一来,组织便能更有效地控制成本,同时提升资源利用率,从而充分释放云计算的潜力,推动业务持续稳健增长。腾讯云作为云原生 Finops 领先布道者,主导开源项目 Crane,全面助力客户实现资源优化、成本控制。 在 2023 年,从行业看,越来越多的行业、技术场景采用了容器和函数计算产品,也为了让用户更好的看到腾讯云在容器和函数计算方面的最佳实践,腾讯云特别推出了《容器和函数计算技术实践精选集》,在 2023 年众多优质刊文中,精心选择了一批代表性技术实践,一起看看在面对不同的技术难题时,腾讯云是如何解决的。同时也带来了云原生 FinOps 如何落地的重磅好文,期待能吸引更多的开发者和企业能够用好云,实现让用云更简单、更有效。 云监控 Barad 的云原生实践 赵轩,高级运维工程师 , 腾讯云监控业务运维负责人。腾讯云监控的 Barad 产品,为云产品提供高效、低成本的海量指标监控服务。Barad 业务经过云原生能力建设以及容灾能力建设,业务已经实现了自研上云全量级容器化部署及多可用区容灾能力。 Barad 业务上云面临的难点和挑战 在降本增效的大背景下,腾讯云 云监控团队继续提升云原生成熟度,提升系统承载能力和降低单位成本,包括对 Barad 业务在容器化占比提升,跨 az 容灾能力建设,资源利用率优化这些方面,因 Barad 业务量级庞大,如何保障大量级数据的稳定处理以及单位成本的优化,这里都有着不小的挑战: 1. 底层设备量级大,整体上云后并发,时延,稳定性保障2. 系统架构复杂,底层模块和旁路功能涉及 40+,迁移这类能力时的稳定性保障3. 海量上报数据实时计算,准确性和实时性的保障4. 业务迁移场景时告警时效性和可触达性的保障5. 大数据处理相关模块迁移上云的性能稳定性保障6. 接入业务多,适配场景众多,控制台使用稳定性保障7. 监控数据存储量级大,存储迁移的查询稳定性保障 整体架构: 关键优化动作和效果 针对这些难点我们进行了如下优化操作,包括 : 1. 基础业务迁移 TKE 容器化部署 2.TKE+TKE Serverless 弹性调度能力提升3.flink 集群容器化建设4.ctsdb 双写并开启压缩能力 这里将 Barad 的业务调优动作对大家做以介绍,以便于大家针对自身业务特点进行相应的云原生渗透力提升以及容灾能力建设。 Barad 接入上报模块 TKE 容器化部署 : 业务容器化拓扑结构: Barad 业务的上报模块之前使用织云平台进行经典模式部署,该模式没有弹性调度能力以及资源容灾特性,根据业务现状,我们对上报服务进行 TKE 容器化部署,以解决集群弹性调度能力和多可用区容灾建设。 在使用 TKE 部署中业务同学需要保障在迁移过程中的数据稳定上报,因为 Barad 作为腾讯云基础监控业务,任何的改动都可能造成用户的监控数据丢失或断点,针对这个情况,Barad 在部署业务时多次进行小地域验证,保障数据切换的平稳过渡。 上云过程中,Barad 业务也遇到了很多瓶颈,在使用 TKE 集群时的并发能力保障上,这里针对集群机型,进行了特定的并发能力配置保障,在业务上报 clb 这里一并进行了带宽上限保障,以保证客户数据万无一失。 TKE 弹性调度能力部署 目前针对 Barad 业务稳定性提升,我们对部分用量伴随时间变化的服务开启和 HPA 弹性调度能力,在业务 CPU 用量占 limit 80% 时或并发数超过 90 万时进行多维度多条件弹性扩充Pod 数量,保障业务运行中的量级突增,提升业务的可用性和稳定性。 TKE 跨 az 容灾能力建设 Barad 业务进行了多可用区资源置换操作,对 TKE 集群进行多可用区优化,实现了 Barad业务的各地域 TKE 集群跨 az 容灾能力建设最终 Barad 上报由经典部署模式迁移至 TKE 集群部署,提升集群弹性扩充能力和负载上限,并具备了跨可用区调度能力。 TKE 集群优化效果 优化缩容必须确保服务稳定和未来可能突然增长造成影响,为此,这边做了两个监控分别监控资源和指