您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:拥抱未来!数据库技术最新发展与创新趋势 - 发现报告
当前位置:首页/其他报告/报告详情/

拥抱未来!数据库技术最新发展与创新趋势

2023-12-21-阿里巴巴黄***
拥抱未来!数据库技术最新发展与创新趋势

拥抱未来!数据库技术的最新发展与创新趋势章颖强(江疑)阿里云数据库资深技术专家 个人简介章颖强,花名江疑。阿里云资深技术专家(P9),PolarDB事务引擎和新架构研发负责人。q浙江大学本科、研究生,十年以上的数据库研发经验,AliSQL的创始研发之一。q14-18年阿里双十一数据库内核负责人,主导集团数据库架构从MySQL演进到基于Paxos的X-DB架构。q目前负责阿里云主营战略产品PolarDB的内核研发和架构演进,并担任ICDE 等数据库顶级国际会议的程序委员。同时多个技术架构突破在 SIGMOD / VLDB / ASPLOS 等顶会发表。 OutlinesØ 传统数据库架构和云的本质Ø 云原生数据库的最新发展Ø 新一代云原生数据库的趋势 传统数据库架构MemoryCPUDatabaseStoragePhysical MachinePhysical MachineVMVMVMMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageMemoryCPUDatabaseStorage传统IT架构下的传统数据库云架构下的传统数据库 传统数据库架构Physical MachineVMVMVMMEMCPUDatabaseStoragePhysical MachineVMVMVMMEMCPUDatabaseStorageü多种资源规格耦合ü弹性困难 云的本质和云原生数据库 üCloud computingis the on-demandavailability ofcomputersystem resources, especially data storage (cloud storage) andcomputing power, without direct active management by the user.üCloud computing relies on sharing of resources to achieve coherence andeconomies of scale.üFor system builders, it is imperative to purposely optimize system design and implementationexplicitly for the underlying cloud infrastructure to achieve the best elasticity, cost, and efficiency. These purpose-built cloud systems are called cloud-native systems.Ref:https://en.wikipedia.org/wiki/Cloud_computinghttps://www.cs.purdue.edu/homes/csjgwang/cloudb/ 云原生数据库 —— Storage DisaggregationMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageData migration happenedwhen scaling upMemoryCPUDatabaseMemoryCPUShared StorageScale up withoutdata migrationDatabaseüOn-demand storageüFast scale up for compute nodeüFast scale out for read replica OutlinesØ 传统数据库架构和云的本质Ø 云原生数据库的最新发展Ø 新一代云原生数据库的趋势 云原生数据库架构 —— 计算存储分离架构MemoryCPUDatabaseShared StorageMemoryCPUDatabaseMemoryCPUDatabase...Read-write nodeRead-only nodesØAmazon Aurora (2014)ØAlibaba PolarDB (2017)ØAzure Hyperscale (2018)ØTencent CynosDB (2019)ØHuawei TaurusDB (2020) 阿里云数据库的历史和发展Gartner 2022 全球数据库魔力象限 PolarDB——阿里自研云原生数据库ü17年国内首个云原生数据库ü支持1写16读,最大100TB存储ü软硬件一体化设计ü高性能一致性协议 阿里云数据库的历史和发展去IOE时代2009~2013AliSQL时代2013~2017PolarDB时代2017~ PolarDB在云数据库中的位置 PolarDB的创新点 —— PolarFSPolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database (VLDB 2018)üOS-bypass and zero-copy - by RDMAüParallelRaft PolarDB的创新点 —— ParallelRaftPolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database (VLDB 2018)üOut-of-Order Ack/Commit/ApplyüFast Catchup PolarDB的创新点 —— 基于共享内存的一写多读TransactionB+ TreeBuffer PoolRedo LogServerInnoDBQueryBinlogTransactionB+ TreeBuffer PoolServerInnoDBQueryBinlogRedo ApplyPhysical ReplicationDataRedoRWROACL CacheSP CacheCacheQuery CacheTable StatsParser / Optimizer / ExcutorACL CacheSP CacheQuery CacheTable StatsParser / Optimizer / ExcutorCacheUpdate34568lwmhwm21118trx_idsACL CacheSP CacheQuery CacheTableStatistics1.B+树正确性2.事务MVCC隔离3.ServerCache同步Query PolarDB的创新点 ——库表级多写STOSTOSTOMEMMEMMEMRWRW全局ROScale OutRWRWØ 库表级多写l支持不同库/表在不同RW节点并发写入l秒级横向扩展,极大提升整体的并发读写能力l多主互备,秒级切换,无需热备,成本降低一半l支持全局只读节点,高效执行汇聚库请求Scale Up PolarDB的创新点 ——无感Serverless•基于热备技术秒级切换•连接、事务跨机续传•快速CPU 弹降•无感BufferPool Resize•高效的远程内存池支持 智能决策本地 ScaleUp跨机 ScaleUp•集群维度高性能全局一致性•热资源池秒级横向弹性跨机 ScaleOut PolarDB的创新点 —— IMCI•大容量、更低成本的CXL内存可提供更多的数据缓存空间,进一步减少磁盘I/O•列存节点支持多机并行执行,共享同一份数据,横向伸缩能力再度加强RWHTAP-RO MPP ClusterHybrid DataPolarProxyRow-indexSQL Parser/OptimizerRow-ExeColumn-ExeColumn-indexSQLCacheExedispatcherSQLCacheExedispatcherSQLCacheExedispatcherCXL mem cluster···Shared Column Index DatadatacmddatacmdScale In/OutScale In/Out更大数据量、更高性能TPCH-1TB单节点性能再提升10倍多机执行性能实现近线性加速比 OutlinesØ 传统数据库架构和云的本质Ø 云原生数据库的最新发展Ø 新一代云原生数据库的趋势 云原生数据库的发展方向staticscaleelastic 云原生数据库的发展方向 — Memory Disaggregation üThe End of Slow Networks: It's Time for a Redesign, VLDB'16.üAccelerating Relational Databases by Leveraging Remote Memory and RDMA, SIGMOD'16 üEfficient Memory Disaggregation with Infiniswap, NSDI'17 üLegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, OSDI'18 Best PaperüUnderstanding the Effect of Data Center Resource Disaggregation on Production DBMSs, VLDB'20 新一代云原生数据库架构 —— PolarDB三层解耦基于高速RDMA的三层分离架构分布式共享存储分布式共享内存计算节点代理层主节点SQL事务本地BP分布式提交时间戳分布式缓存一致性分布式全局锁行存索引Buffer Pool列存索引 - IMCI行列索引同步RDMA networkChunkServerAbcPolarFS@ PolarStoreChunkServeraBcChunkServerabCParallelRaft主节点SQL事务本地BP主节点SQL事务本地BPRDMA networkPolarProxy分析节点Vectorized Execution EngineExpression Framework(SIMD)Table ScanSchedulerGroup ByAggregationHash JoinNested Loop JoinOtherOperatorSchedulerSchedulerScheduler 新一代云原生数据库架构 —— 行级多写•利用全局事务ID和提交时间戳确定事务提交序和可见性•利用多级别不同粒度的全局锁实现高效的跨节点的并发控制•通过Page锁实现跨节点缓存一致性•支持多个master节点的行级并发写入,突破单点写入瓶颈Buffer fusionMEMTRX fusionLock fusionMEMPolarFusion ServicesPROXYScale OutRWRWRWRWPolarStore行级并发写入PolarFusion实现事务、锁、缓存信息全局协调•实现高速的跨节点的信息协调高度融合RDMA 新一代云原生数据库架构 —— Polar4AI0500100015002000ResNet-50BERTEfficientNet-B7GPT-2GPT-3!"#$%&%'()*+,%&%-!"#$%&数据加工模型评估模型训练模型部署数据清洗、特征计算模型选择、参数选择稳定、高效在线部署、离线推理模型和数据的交互涉及多个系统,越来越复杂通过扩展的AI SQL和AI节点,PolarDB支持•大模型:阿里通义千问等大模型开箱即用•MLOps:模型训练,模型推理,模型部署等操作•NL2SQL:自然语言驱动的数据查询•ID Mapping:便捷的实体对齐•AIGC:模型产生数据与数据库数据互操作在Polar4AI覆盖场景下,能够:帮助用户