您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:黄朝伟-海量存储平台容量管理 - 发现报告

黄朝伟-海量存储平台容量管理

AI智能总结
查看更多
黄朝伟-海量存储平台容量管理

海量存储平台容量管理 黄朝伟 腾讯对象存储运维负责人 2014年加入腾讯,长期从事存储相关工作。目前负责腾讯对象存储的运维与运营体系建设 01腾 讯 对 象 存 储 介 绍 02存 储 系 统 容 量 管 理 机 制 03突 发 场 景 下 容 量 保 障 PART 01 腾讯对象存储介绍 不同存储类型与典型特点 •文件为基本单位的存储方式,通常有标准的文件系统协议,简单易用,可共享访问•适合多用户或多应用程序同时访问的场景,如应用程序存储等 •对象唯一标识符作为索引,以对象为单位整体进行存储,可扩展性强•适合海量存储,如备份,云盘;多媒体存储与分发,如视频,图片等 •将数据分割成特定大小的块并逐个存储,具备读写延时低等高性能特性•适用于系统盘存储,数据库存储等 腾讯对象存储 腾讯对象存储是腾讯内部最大的存储平台。承载了腾讯内部超过80%的在线存储需求。服务业务包括但不限于社交网络,视频文档,网盘等自研产品,以及腾讯云上的对象存储COS。 腾讯对象存储 腾讯对象存储整体架构 腾讯对象存储—接入服务 主要功能: •用户的接入管理,包括权限,默认配额等•数据从业务或用户的应用侧至存储平台的转发与透传•业务配置的高级功能管理与执行,如list服务,跨区复制,数据排重等 应用接入服务 共性特点: •各功能服务时效性存在差异,如上传下载时时生效,生命周期以任务维度生效,镜像回源尽量保障完成•主要为转发和透传,无服务状态,具备平行拓展能力 腾讯对象存储—数据底座 主要功能: •业务数据的落地存储,以及对象和数据分片的索引存储 共性特点: •存储节点具备状态,无法通过平行扩容快速满足线上突发需求•索引存储物理副本形式组织,但数据存储通过纠删码算法切片形式组织存储•灵活编码,但不同规格的存储共享存储池•集群性能与全局均衡度成正相关 PART 02 存储系统容量管理主要机制 容量管理的相关维度 存储应用 QPS:信令模块,计算模块带宽:接入模块,数据转发模块存储容量:索引节点,数据节点 机制一:优先级避让与饱和度 特点2:穿插放大。方案:饱和度 ⚫带宽+平均文件大小→文件qps⚫Object→blob→slice⚫get/put/delete…IOPS饱和度带宽饱和度 机制二:可用天数计算模型 •空间净消耗速率的计算 •从存储节点拉取并汇聚得到每种规格的使用空间used_X•对used_X的历史数据点进行线性拟合,拟合得到的斜率即为空间净消耗速率 •可用天数的计算 •每种规格的净消耗速率可能为正,也可能为负,只有净消耗速率为正的才会消耗集群的未分配的物理空间•对物理空间的消耗速度为逻辑空间消耗速度*冗余度•每种规格先消耗其可分配空间,然后再消耗未分配的物理空间,不同规格对未分配物理空间的消耗是相互独立 机制三:按规格自动化分配 机制四:占用率与使用率 占用率为什么不等于物理存储总容量? ➢存储规格相互独立,业务需求存在不可预测性➢极端突发情况的缓冲手段,避免对物理极限造成致命冲击 占用率:预先分配,保障时时新增请求容量迁移:集群内逻辑区取长补短,保障相对均衡逻辑区占比:宏观控制单逻辑区容量占比不高于1/(n+x)使用率:事实上已经使用的空间 PART 03 突发场景下容量保障 场景归类 可预知突发类型 不可预知突发类型 节日保障:如元旦,春节,国庆等;护航促销:618,双十一,双十二 社会热点效应极端突发故障业务客户放量 未事先沟通,或无法事先沟通,无资源储备 储备资源,具备较好的事先准备特性 典型突发—2022年世界杯 常规扩容无法保障全链路负载快速稳定,扩容之外更侧重内部挖潜 ⚫在线核心请求高优保障⚫异步请求尖峰时段避让•沉降调度•生命周期 •跨区调度•日常巡检•控制均衡 ⚫其他离线请求直接停止 •搬迁腾挪•业务备份•空间整理 跨年突发 集群整体带宽 存储容量管理总结 存储层 管理措施 快速补给 存储接入 •占用率机制,按天计算容量使用模型•请求分级机制和避让•自动扩容,风险状态下冲击占用率,物理资源不受冲击 •瞬间突增,秒级扩容,或者秒级降负载•部分场景具备可预知,但大部分无法预知 •仓库必须可持续,风险零容忍•存储增长特性:缓慢持续具备一定反应时间•逻辑存储空间自动扩容 •物理资源补给上,所有节点和模块10min内完成扩容和启用 高效运维社区DevOps时代 荣誉出品 感谢大家观看