您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:2024腾讯云云原生客户案例实践集 - 发现报告

2024腾讯云云原生客户案例实践集

2025-02-20腾讯发***
AI智能总结
查看更多
2024腾讯云云原生客户案例实践集

【版权声明】 本报告版权属于腾讯云计算(北京)有限责任公司和 InfoQ 极客传媒,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:腾讯云计算(北京)有限责任公司和 InfoQ 极客传媒”。违反上述声明者,将追究其相关法律责任。 【参与编写单位】 腾讯云计算(北京)有限责任公司 InfoQ 极客传媒 卷 首 语 在数字化浪潮汹涌澎湃的当下,云原生技术正以前所未有的速度重塑着整个 IT 行业的格局。从微服务架构的广泛应用,到容器化技术的深入人心,再到服务网格、不可变基础设施等概念的兴起,云原生凭借其卓越的灵活性、可扩展性和高效性,成为推动企业数字化转型的关键引擎。它不仅为数字原生企业提供了强大的技术支撑,更助力传统企业突破既有束缚,实现业务创新与升级。 凭借自身在云计算领域的深厚积累与技术实力,腾讯云从大规模自研上云的实践出发,逐步将云原生技术成果向行业输出,取得了显著的成效与收益。历经数年沉淀,腾讯自研业务如QQ、微信、王者荣耀、腾讯会议等,已全面上云并完成云原生改造,集群规模突破 5000 万核,累计节省成本超 30 亿元。在此过程中,腾讯云攻克了诸多技术难题,积累了丰富的实践经验,并将这些经过大规模实践验证的云原生技术与解决方案,毫无保留地开放给百万级外部客户,助力金融、游戏、企业服务、智能制造、教育等诸多行业实现业务的快速上云与云原生化改造,涌现出一大批提质增效的最佳实践案例。 为了将这些珍贵的实践经验分享给行业,我们精心梳理、提炼并整理成这本《2024 腾讯云原生提质增效实践精选集》。书中的每一个案例,都是企业在数字化转型过程中真实经历的挑战与突破,涵盖了容器服务、中间件、云开发、低代码、可观测等多个云原生关键领域。我们希望通过这些详实的案例,为广大同行提供参考与借鉴,助力大家更好地理解云原生技术的应用场景与价值,激发更多创新思维与灵感,携手加速产业数字化转型的进程! 目录CONTENTS 容器服务01 更高效能来自更优选择,TKE 助力贝壳提质增效维稳降本,小鹅通容器集群计算资源的调控实践趣丸科技基于 TKE 集群的高效混部实践1.11.21.3071015 中间件02 FiT 基于腾讯云消息队列 TDMQ Pulsar 版在在线高并发场景的最佳实践腾讯云分布式消息队列 CKafka 一站式搭建数据流转链路,助力长城车联网平台降低运维成本业务高速增长,如祺出行如何用腾讯云消息队列 RocketMQ 应对挑战2.12.22.3212632 云开发03 5 天完成一个百万级营销活动?沃尔玛、瑞幸咖啡、蒙牛都在用腾讯云开发!3.139 低代码04 揭秘智慧浦东机场的低代码创新建设与落地经验4.144 可观测05 腾讯云可观测平台如何为新能源车企缓解焦虑腾讯云拨测助力头部跨境电商平台优化用户体验腾讯云 RUM 和 APM 帮助微购建设前后端一体化监控平台腾讯云 RUM 守护喜茶小程序5.15.25.35.450636875 更高效能来自更优选择,腾讯云容器服务 TKE助力贝壳提质增效 > 公司简介 贝壳找房是国内领先的居住产业数字化服务平台,致力于推进居住服务的产业数字化、智能化进程,通过聚合、助力优质服务者,为中国家庭提供包括二手房交易、新房交易、租赁、家装、家居、家服等一站式、高品质、高效率服务。 作为国内最大的房产中介平台,贝壳一直对新的 IT 技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云 TKE 有一些小规模合作。 实际上,贝壳与腾讯云的合作最早可以追溯到 2018 年,在贝壳找房的前身,链家网在尝试互联网业务时,链家建立了自己的数据中心,并选择了腾讯的公有云作为辅助,主要利用其弹性能力来满足需求。但是当时主要集中在基础设施即服务(IaaS)层面,腾讯作为公有云供应商,帮助链家网解决计算虚拟机、存储和带宽等问题。 > 业务挑战 贝壳找房成立后,公司业务实现了井喷式增长,这也带来了研发人员的大幅增加。随着公司上市,人员和流量的进一步增长 给基础设施带来了诸多挑战。 “因为我们在基础设施做建设的时候,其实是有些预判,比如我们做运维的人经常说我们公司如果增长 3 倍,我们的架构应该怎么去适配?如果增长 10 倍,又该怎么适配?我不能拍脑袋去考虑增长十倍甚至二十倍甚至一百倍的方式,因为这本身也是一种成本浪费。基于此我们开始了跟腾讯云在容器化方面的合作。”贝壳云技术中心系统研发部高级经理杨菁伟提到。 但一开始在容器化方面,贝壳用的是 TKE 普通节点,本质上是在虚拟机上部署一些托管的 K8s 能力,效果并不明显。 > 解决思路 2023 年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中 4 指的是计算集群利用率提升到 40%。 “容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”杨菁伟表示。 很快,贝壳接入了腾讯云 TKE 的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE 原生节点帮助贝壳解决了三个核心问题: 首先是 Request 配置。在创建 K8s 集群的工作负载时,通常需要配置合适的资源,Request 是下限,指的是容器需要保留的最小资源量;limits 是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。 腾讯云 TKE 原生节点的“成本大师”推出了 Request 智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的 Request 配置,确保资源得到合理利用。 其次,在节点放大之后,容易遇到稳定性问题,考验 TKE 资源如何调度。比如 K8S 集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云 TKE 原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加 CPU 和内存资源。 三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群 24 小时运转,就需要把在线和离线业务混在一起运行。 同时,腾讯云 TKE 在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。 > 落地效果及未来展望 最终,在 TKE 原生节点的支持下,贝壳的资源利用率从 23 年年初的峰值不到 25%,到年底提升到了 40%。 “容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云 TKE 在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。 维稳降本,小鹅通容器集群计算资源的调控实践 > 公司简介 小鹅通是一家以知识产品与用户服务为核心的技术服务商,创始至今已服务逾百万家客户。现如今,私域运营正在逐渐成为数字化经营的重要手段,并助推企业的业务升级和组织建设升级。小鹅通作为私域运营的一站式工具,解决产品和服务交付、营销获客、用户运营、组织角色管理、品牌价值输出等痛点并形成闭环,扎根多个行业与生态,可在企业经营过程中发挥重要作用,成为企业数字化经营的好帮手。 > 业务挑战 多模型、高体量的业务场景给小鹅通带来了极大的并发挑战,如何在完成资源保障的基础上进一步维稳降本成为难题。 > 解决思路 集群资源调控:Serverless+ 常驻节点高效利用 受业务场景 ( 如直播 ) 及庞大用户量影响,小鹅通集群资源存在明显规律的波峰波谷现象,集群资源差值达 100% 以上,集群闲时资源冗余明显。 为了解决这一问题,小鹅通开始尝试与腾讯云合作。 “因为我们的企业价值观是客户第一,所以在做云产品选型时,我们会优先选择一些比较有实力的,之前有过相关场景落地的云厂商,这样其实我们的接入成本会更低;另外一个考虑点是技术团队实力以及服务支持响应的速度。像 TKE 它其实在业内是比较与时俱进的一个云产品,比如说它的 K8s 版本在 24 年 8 月已经更新到 1.30 了。” 小鹅通容器负责人张安哲表示。 选择跟腾讯云合作之后,小鹅通开始衡量腾讯云 TKE 常驻节点和 Serverless 超级节点如何选择。 第一阶段,小鹅通将 TKE 常驻节点与超级节点进行了初步结合。 张安哲表示:“我们原来是 CVM 的一个场景下,迁到容器这边,成本这块的支出的情况下有较大幅度做到一个降低,50% 以上。后续就是基于腾讯这些的能力以及 K8s 能力在这个基础上进一步降低了 20% 左右。其中相当一部分能力是通过 Crane 进行的,另外一部分能力是通过超级节点进行的。” “在容器里面首先是业务能稳定的运行,基于这个业务稳定的条件,那我们在想能不能业务稳定的情况下,我们能把云资源对应的一个成本进一步的压缩。这其实是在我们完成容器化之后进一步思考的问题。”张安哲表示。 在对超级节点与常驻节点的计费规则做了深入研究之后,小鹅通开始基于业务情况,寻找二者的黄金配比。 Serverless 核心计费规则 a. 较大原则:max(max(containerLimit),sum(containerRequest))b. 升格原则(CPU 为例):3C(使用)->4C(计费),6C(使用)->8C(计费) 常驻节点核心计费规则 ( 节点核数 *Crane 放大系数 - 系统组件核数 )/CPURequest如何计算出二者的黄金配比”? 最终,通过对常驻阶段与超级节点进行黄金配比,想同用量之下,成本再降低 12+%。 服务资源调控:HPA+HPC 调控解决成本问题 场景 1:直播带货 •痛点:商家数字化转型,将线下庞大流量带到线上;直播间讲解完商品后,发出商品链接抢购,都将导致瞬时间成百上千倍流量涌入系统,造成极大的压力。 •解决方案:通过固定 HPC 扩容 +HPA 回收,实现高峰期整体资源保障。 场景 2:KA 保障 •痛点:在 B 端场景下,长尾效应明显,单租户的流量比重会占到整个系统的大部分流量,与此同时 KA 客户时间段不固定,因此需要对 KA 客户进行特殊保障,助力用户体验顺畅。 •解决方案:通过商家报备时间段 HPC 扩容 +HPA 回收,实现闲时 KA 资源保障。 尽管通过上述方案,能够确保特定场景的资源保障,但是仍然存在大量 HPA/HPC 维护导致人力成本较高、集群利用率低下、云资源成本陡增等问题。 小鹅通结合业界经验与生产经验,经过大量背景搜集及多次试点后,最终落地容器计算资源标准并执行。 张安哲表示:“其实小鹅通的直播场景、体量问题,更多还是要通过集群资源保障去解决,比如你的超级节点以及对应原生节点的配额能否满足业务需求,另外就是底层 DB 是否支持。容器能支持到的能力,第一个是扛住它对应的类似秒杀场景,带来的突刺。这种场景,如果说是放在传统的 HPA 下,它其实是不太适用的,我们之前也计算过,超级节点对应的一个扩容能力,它的准备时间以及资源对应的一个分配时间加起来就要 30 秒,但是我们进入直播间可能最快一分钟进来很多的用户。针对这个问题,行业内通用做法是给它定时加对应的 HPC。但是,这么多的 HPC 你要如何进行一个管理?因为我们不同的时间段有不同的高峰,如果全天按最高的需求量先给它去囤对应的资源,很明显会带来浪费。后面基于业务稳定的情况下,我们自研了一套能自动调控 HPC 对应的算法程序。进一步降低我们运维成本。” > 落地效果及未来展望 通过上述解决方案的落地与持续优化,小鹅通最终实现: •复合容器资源云成本降低 20%+•集群整体利用率较上限提升 20%•日常容器资源维护人力