AI智能总结
趋势挑战:行业变化、客户转型、产业升级带来的新挑战 行业变化:多元、国产、上核心 客户转型:集中化、云化 产业升级:新硬件潜力有待挖掘 集中化建设 多元数据库百花齐放 •规范业务、打通流程,离散业务集中化、标准化•外部压力不变,内部压力倍增 多资源池,管理难 国产数据库百花齐放,据墨天轮统计,品类总数近300 自主可控部署要求 硬件架构多,适配难 云化建设 •政策驱动,全栈国产自主可控•国产软硬件适配复杂,管理成本高,问题频发 过去,硬件慢,软件慢点无所谓现在,硬件快,软件慢点大问题 •高性能、灵活扩展•应对外部爆炸式的业务并发和数据增长 国产数据库上核心 利用新技术,软硬件深度整合,充分挖掘整机性能成为当务之急 要求高性能高可靠的承载环境 本地盘等部署方式,系统可靠性难以支撑国产数据库上核心的诉求 实事求是:从一个用户的案例看国产数据库承载架构需求 数据库架构现状: 1、使用某大厂分布式数据库集中式部署版本。2、当前业务分了4套数据库(按地市进行区分),每套数据库一主两备,一共12台主机;数据库存储在服务器本地盘,当前数据量较小,仅1-200G。【数据量很少,国产库为什么都建议用本地盘?】3、服务器配置:全闪SSD,10T左右空间;CPU为鲲鹏920,64核;768G内存【存储资源浪费严重,磁盘故障率高】4、2023年12月底开始上线,购买了2个月原厂服务,经过几个月磨合,目前系统运行正常,CPU使用率一般处于20-30%之间,偶尔40%。【为什么会出现数据量很小,但是CPU占用还不低?】 数据库承载架构思考: 1、存算分离是架构设计的基本原则,也是解放单机架构下CPU能力的关键一环。 2、本地盘性能好,但资源浪费,冗余性差,资源浪费?要实现既安全可靠又高性能,同时能实现存储资源的共享?资源共享,降本增效? 3、国产数据库引擎相对Oracle还有一定差距,如何弥补?同样的车,高速VS国道?1km、100km 抽丝剥茧1:决定数据库性能的一些关键考核指标 性能指标概念 •IO:Input-Output,读写请求•IO大小:如4K、8K、1M,读写数据大小,交易型(OLTP)系统一般为小IO,分析型(OLAP)系统一般为大IO•IOPS:系统每秒可以处理的IO数量,考察IO的并发处理能力,一般小IO才考察该能力。•时延:每个IO执行的时间,一般小IO才考察该能力•带宽:系统每秒可以处理的IO带宽总数,一般大IO考察该能力 性能关键指标 99%和99.99%的时延:时延从低到高排序,排在第99%和99.99%的IO时延。 性能考察方法(见右图) 假设系统对每个IO的处理时间是1ms,系统可同时排队的IO数量是8个。则该系统的IO并发处理能力是8(如果计算IOPS,则需要计算1秒内的IO处理能力),因为队尾的IO要等前面的IO执行完,所以队尾的IO时延更大(可能达到7ms),整体平均时延也会更大。 这两个时延是考察存储时延的通用指标。相当于中位数(这里是99%位数)。 举例来说,小部分时延很高,大部分时延很低,平均时延则会很低。但存储系统往往要考察这小部分高时延的表现,所以会观察99%、99.99%位数的IO时延,这两个时延越低,说明系统的IO处理能力越强。 因此,考察一个系统的小IO性能,要同时考量IO并发能力和单IO处理时延,单独考察其中之一都是没有意义的。一个高性能系统,要在低时延的情况下,观察IO并发能力(IOPS)。有些系统IOPS很高,但是时延也很高(甚至不可容忍),也说明系统性能较差。 抽丝剥茧2:数据库常用存储协议类型:块、文件、对象 •场景:大数据、备份归档、海量非结构化数据•特点:通过HTTP承载对象存储语义,实现远距离共享数据;用于非结构化数据的存储 刨根问底1:传统部署范式难以应对企业发展新挑战 •集中化、云化,要求极致性能•数据库种类多,要有海纳百川式的高性能 不够快 •本地盘虽快,但牺牲了稳定性(盘故障,数据库节点切换20秒,业务中断;硬盘卡IO,系统挂起几分钟)•硬件无监控,运维靠人工•0.5+0.5<1:国产数据库本身还在夯实稳定性,基础设施容错能力弱,上核心难•的的•的•的的的•本地盘、集中式存储扩展性弱(盘故障本地盘盘位有限,无法扩容)•分层适配国产化,适配周期长,问题多•多元数据库,运维难(DBA对国产数据库技能还在学习中) 不够稳 不好用 刨根问底2:集中式存储vs分布式存储(通用/专用) 集中式存储:传统火车,强劲的火车头,但车厢没有动力,全靠车头带动,火车头成为瓶颈。适合数据量较小,扩展性要求不高的场景。 分布式存储:新型动车,每节车厢都有动力,车厢越多,速度越快。适合数据量大,扩展性、IO并发要求高的场景。 范式创新:面向数据库,提供快、稳、易的一体化资源池 稳 快 易 •运行平稳不颠簸,乘客体验好,货物保护好•紧急情况,快速制动处理,保障运输安全 •车组弹性扩展,满足承运高峰期•开放多元,拉人亦拉货•监控中心全面管控,动车状态实时掌握 •极速车组,无论VIP乘客、普通乘客还是货物,都可极速送达目的地•每节车厢都提供动力,车厢越多,跑得越快 满足各类业务负载的卓越性能 保障数据库运行的稳定可靠 面向多元数据库的开放易用 恩墨实践:zData X多元数据库一体化运行平台 开放易用 稳定可靠 卓越性能 多重可靠性保护机制,全栈国产保障数据库运行稳定可靠 全自研分布式架构满足关键业务负载的业界领先性能 灵活弹性,全栈全生命周期管理面向多元数据库的开放易用架构 卓越性能:数据库一体机产业性能TOP表现 提供产业TOP的性能表现,满足数据库各类严苛的负载要求 开放易用 卓越性能:全面优化,30+项专利 关键挑战架构优化,充分发挥硬件潜能 高速协议•支持NVMe-oF、RDMA高速协议,充分发挥高速硬件性能 软件瘦身 调度优化 •专为数据库设计,相比传统架构(支持多协议),软件架构更精简,性能更强•数据处理单元由变长改为定长,处理机制更简单;写IO处理流程减少1/3 •专核专用,保障关键业务资源•无锁化设计,核心绑定资源对象•驱动用户态,处理流程更短•轮询调度框架,降低切换时延 开放易用 稳定可靠 卓越性能:无锁化设计的挑战及解决 挑战:如何解决资源均衡分配的问题 解决:自研调度算法,确保资源分配尽量均匀 实现原理:核心绑定资源对象,避 •资源分配不均会影响性能•CPU核心数越来越多,分配不均问题更为突显•故障场景下,如何重新均衡成为难题 •算法优化:自研调度算法,采用局部优化,多次迭代,逼近最优均衡;已申请专利《一种非对称分布的负载均衡方法》•自动化看护:资源均衡性超过3%的偏差时,用例不通过,需人工分析解决,确保实现效果无误 开放易用 稳定可靠 卓越性能:优于本地盘的性能表现 使用sysbench进行测试,zDataX相比本地盘,低并发场景性能弱于本地盘,高并发场景优于本地盘,最高提升25% 本地盘 zDataX 单节点: 1计算+ 3存储节点: •CPU:2x24cores Intel(R) Xeon(R) Gold 6240R CPU @2.40GHz•内存:8 x 64GB•存储节点数据盘:2 x 3.84TBNVMeSSD•数据冗余:Raid1 •CPU:2x24CoresIntel(R) Xeon(R) Platinum 8260 CPU @2.40GHz•内存:计算(8 x 64GB),存储(8 x 32GB)•存储节点数据盘:6 x 1.92TBNVMeSSD•数据冗余:3 稳定可靠 开放易用 稳定可靠:多重可靠性保护机制 开放易用 稳定可靠 稳定可靠:无损快照和双模克隆,满足各类业务场景需求 基于ROW构建快照 数据对象在某一时间点的只读“虚拟”副本,为业务快速提供在线备份恢复与可用数据副本 Ø快照与源卷共享索引,空间开销小Ø基于ROW,性能损耗小 开放易用 稳定可靠 稳定可靠:重构性能15min/TB,保障业务可靠性 故障场景 所有硬盘参与数据重构,充分发挥各节点的算力,提升重构性能 临时离线场景 硬盘或节点临时离线,因变化数据较少,仅同步差异数据,防止全局重构对业务性能的影响 稳定可靠 开放易用 稳定可靠:针对亚健康组件提前预警,事前预防 亚健康:组件尚未故障,但出现慢速、寿命不足等 ①检测并告警:系统发现IB降速,并给出告警②可视化查看:监控中可以查到IB降速情况③亚健康处理:网口组件处于亚健康状态,为保证系统不降速,自动禁用该网口,系统正常运行④处理后告警:禁用网口时,触发告警 开放易用 开放易用:灵活按需扩展,组件开放兼容 •全分布式架构,存储节点3节点起配,并可轻松扩展至1024节点•性能随容量线性增长 开放架构,支持各类架构数据库、操作系统、物理硬件* 开放易用 开放易用:事前事中事后全面数据库安全操作管控 围绕数据库及基础设施,进行全栈全生命周期管理 快速故障分析分钟级主备切换 •告警下钻:从告警就可深入查询、分析相关属性,而不是简单的发出告警就结束•全面分析:多维度、多属性记录SQL性能事件•一键查询到底:无需从多个入口查找关键性能事件,一次就能查询到所有内容•一键部署高可用数据架构,实时探测和自动故障诊断,快速进行高可用切换,保障业务的连续性 •全面精准的采集指标项,包括数据库状态、性能、容量,构建精准数据库画像•准确收敛告警,避免海量告警风暴•场景化告警模板,精准、全面的设计告警内容•告警响应,精准控制传播路径和范围,全程可追溯 •预制专家巡检项、自定义场景化巡检,灵活自定义巡检项,满足各类巡检需求•批量巡检,统一汇总查看,提升巡检效率,方便查看巡检结果及问题•巡检结果跟踪闭环 业界认可:全栈国产,金奖方案,打造业务第二平面 荣获华为主办“2023鲲鹏应用创新大赛” 鲲鹏一体机解决方案创新(泛政府)赛道金奖 获得鲲鹏最高级别Validated认证 行胜于言:助力某省卫健委构建全栈国产数据库资源池 客户痛点 既要满足系统高性能、高可用的改造需求,又要满足国产信创的要求 性能全面提升IOPS 157万,带宽31GB/s 行胜于言:池化整合,助力某证券公司架构创新升级 客户痛点 在整体性能上远超X86+集中存储架构,IOPS合计超过百万。zDataX上线后,各项性能指标显著提升。DB Time降低至原来的1/20,SQL语句执行时间及I/O响应时间均有大幅提升! zData X构建多元数据库资源池承载Oracle、MySQL等 数据库种类多 核心业务采用传统数据库,部分业务系统逐步采用国产数据库承载。 传统架构性能差 从业务角度上来看,常用业务功能的查询速度大幅提升,多项业务模块查询速度提升20倍以上!前端客户体验效果显著。 数据库量爆炸式增长,传统架构无法满足需求,严重时会影响部分业务性能。 资源利用率低 各个业务系统形成烟囱式体系,优质资源无法整合,IT成本居高不下;集中式存储架构,无法横向扩容。 行胜于言:某交通行业客户核心数据库自主创新改造 •采用zData X一主两备架构部署,同城双中心;•4+5(全栈鲲鹏服务器)做生产及同机房容灾,2+3(全栈鲲鹏服务器)做异机房容灾;•采用存算分离的基础架构,提供高性能、高可靠、高扩展能力;•通过一体机内置的监控管理平台提供数据库及硬件设备的全面运维管理能力;•通过云和恩墨zStorage采用多台服务器构建数据库存储资源池,实现资源集约化管理。 行胜于言:某交通行业客户核心数据库自主创新改造 业务收益 全栈鲲鹏、自主创新,助力客户在数据库改造实践中保持行业领先,并具备很好的行业示范效应; 主备切换实现大压力下快速故障恢复RTO<10s; 客户应用系统的性能有较大提升(150万IOPS,MBPS超过30GB/