AI智能总结
——集群新架构助力企业轻松应对高并发 程昌明主讲人: 导师介绍 程昌明 腾讯云数据库高级产品经理 腾讯云数据库MySQL产品线负责人,在高可用解决方案、信息安全、系统规划、性能优化、灾难恢复与信息系统整合方面拥有丰富的实践经验。曾为网络运营商、银行、能源(国网、南网)及政府等各行业的关键业务系统,提供运维、升级、项目实施与管理、容灾建设等疑难问题咨询与技术实施服务。 为什么我们需要新架构 存算一体化架构 优势 ⚫本地磁盘极低IO响应时间⚫本地资源无损弹性(CPU弹性)⚫网络架构易扩展 劣势 ⚫备份恢复时长随数据量增长⚫磁盘规格受限⚫计算资源上限受代次限制⚫需要不可读备机提供可用性保障⚫底层内核特性更新缓慢 为什么我们需要新架构 集群版架构 特点 ⚫计算资源与磁盘规格无需绑定⚫支持全部性能级别磁盘类型⚫计算资源按照算力定期迭代⚫备份使用云盘快照⚫适用于新架构的内核优化⚫快速增删节点⚫支持高频快照(15分钟间隔) 特点02 ⚫业务变化较大,频繁扩缩容或增加只读实例提升读性能⚫经常需要快速回档的游戏项目⚫数据量较大的在线业务系统 横向&纵向扩容 ⚫CPU最大支持512核⚫内存最大支持2TB⚫存储最大支持32TB 横向扩容快 ⚫5分钟快速扩展⚫支持独立只读⚫支持自动读写分离⚫支持自动故障转移 集群版02 集群版 内核特性——BP预热 背景及问题01 ⚫节点重建或常态化的实例迁移,新节点Buffer Pool需要长时间预热,而预热期间影响业务运行,QPS长达数十分钟恢复正常。⚫主从缓存不同:读写节点业务与只读节点业务缓存数据存在差异。 解决方案-主从缓存同步优化02 ⚫主库异步dump buffer pool信息,获取Btree热点数据范围,生成逻辑快照。⚫从库加载快照信息,通过直接扫描Btree异步预热备库buffer pool。⚫主从buffer pool热数据逻辑保持一致。 集群版 内核特性——原子写 背景及问题 MySQL InnoDB的page size一般为16KB,数据校验也是按16KB页面来计算的。但操作系统写入磁盘是以4KB页进行的,为了保证InnoDB的16KB页的原子写入,MySQL采用Double Write的方式完成数据写入,数据页面存在双倍的写入。 解决方案-16k原子写 16k原子写是通过文件系统COW异地更新的机制,确保MySQL 16k页面原子写入,优化MySQL的写入性能和数据写入量,解决Double Write带来的额外IO带宽占用问题。 集群版 内核特性——原子写——快照 背景及问题 Linux这种IO不保序导致XFS reflink存在的临界状态被云盘快照到的问题可以认为是XFS reflink不支持云盘快照或者云盘快照不兼容XFS reflink机制。在FS侧想要彻底解决,只能使用sync IO,但这样性能下降严重,此外,OS内核由于不知道IO的实际用途和快照开始/结束时点。 解决方案-锁时同步02 通过验证TR提交阶段,log中会包含inode元数据的备份,确定在TR提交时,将TR转换为sync TR可以解决文件元数据延迟更新的问题。使用sync TR时带来性能下降约2%,影响较小。 集群版 内核特性——跨CCD优化 背景及问题 AMD ZEN4处理器具备更高的性能,不论浮点还是整数运算提升都很明显,IPC提高了14%,L2大小增加了2倍,显著提高了频率和降低平均延迟。但由于芯片架构不同,跨CCD访问时,会有明显的性能下降,下降最大幅度达到40%。 解决方案-调度策略优化 调度器在进行调度的是,任务会在两个不同的NUMA节点间进行负载均衡。从而导致task在NUMA间迁移。但是,允许两个NUMA间少量的不平衡,则可以避免这种迁移过于频繁,尤其在负载比较轻的情况下。 集群版 内核特性——跨CCD优化 优化逻辑01 AMD ZEN4处理器具备更高的性能,不论浮点还是整数运算提升都很明显,但由于芯片架构不同,跨CCD访问时,会有明显的性能下降,下降最大幅度达到40%;通过优化使负载均衡能够识别CCD架构,让其对CCD架构开豁免权,保持负载不均衡特性,尽量减少跨CCD访问,让多任务尽可能集中在一个CCD内,减少核间延迟。 后续优化-再次增强 ⚫优化numa spinlock锁粒度过粗问题,优先选择llc粒度下的cpu获取spinlock锁,降低cache抖动⚫跨LLC的调度策略,这种workqueue自动感知,将会进一步降低跨numa的影响,以及有感知的选择相邻的更近的LLC cpu 集群版 性能提升明显 从实际测试数据观察,对比优化前,在读写混合场景下有30%~50%的性能提升。 测试方案 使用sysbench工具,在读写混合场景下设定并发度为CPU核数8倍进行测试。 集群版 新架构特性 支持从机只读01 ⚫从节点支持配置只读地址,无需额外创建隐藏从机。⚫多个从节点支持自动负载均衡能力。 快速增加节点 ⚫从快照进行节点添加,无需等待数据恢复完成即可使用。⚫更简单易懂的扩展拓扑操作。 节点监控 每个节点均有自己的监控指标,可以更直观的了解集群维度下实例运行状态。 RoadMap03 提供完整且灵活的备份策略和能力,满足不同场景下对数据恢复的需求 自动扩缩容存储,以满足不同周期下业务数据的变化 提供一键将存量架构升级为集群版能力,便于用户升级