行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

PolarDB-PG-HTAP详解

2024-09-10 冯遵宝 - 小烨

PolarDB-PG核心特性与HTAP解决方案

架构特点

计算存储分离：存储与计算资源独立扩展，按需调整，降低存储成本，支持一写多读和透明读写分离。
性能与可靠性：三副本机制、秒级备份，毫秒级主备延迟和秒级恢复，确保高可用性。

HTAP业务场景解决方案

传统方案痛点：TP业务中大量表join导致性能瓶颈，需复杂数据迁移和运维。
PolarDB-PG HTAP优势：
- 内核原生支持MPP引擎，无需数据迁移。
- 提高计算节点利用率，支持单机与分布式MPP执行。
- 毫秒级数据新鲜度，TP/AP共享数据，减少存储和运维成本。
- 弹性扩展，任意节点可成为MPP master，计算能力即时生效。

内核模块栈

分布式执行引擎：支持分布式执行器、事务一致性、分布式优化器，兼容SQL全功能。
分布式优化器：
- 基于ORCA扩展，结合共享存储特性。
- 支持动态规划（单机）和TopDown模型（分布式GPORCA）。
- 优化场景如LeftOuterJoin，通过并行化分片索引扫描提升效率。
分布式执行器：控制链路与数据链路优化，动态扫描解决数据倾斜问题。
弹性扩展：Coordinator和Worker全链路无状态设计，实现算力SQL级别弹性扩展。
数据一致性：通过等待回放和Global Snapshot机制，解决内存、元数据不一致问题。

应用场景与性能

单机并行：受限于单机资源，未充分利用存储IO带宽。
跨机并行计算：通过polar_enable_px=1和SQL hint，充分发挥多节点计算和存储能力。
并行创建索引：多机加速排序，全流水+batch写，性能提升4~5倍。
批量导数据/物化视图刷新：多机并行读取和执行，性能提升2倍。
多模数据库支持：时空数据库、时序、向量计算，分布式执行提升性能。
TPCH性能测试：1TB TPCH测试中，3个SQL加速比60倍，19个SQL加速比15倍，分布式并行与单机并行均显著提升性能。

开源社区

内核开源特色：100%兼容社区PostgreSQL，全开源组件，代码与生产环境一致。
文档与资料：提供丰富的架构、功能、快速入门文档及定期直播讲解。
部署方式：支持docker、编译安装、单机、分布式（云盘/共享存储）。

联系方式

zunbao.fengzb@alibaba-inc.com

阿里云智能数据库产品事业部PolarDB产品部嘉宾：冯遵宝（北侠）背景：PolarDB-PG计算存储分离 PolarDB-PG计算存储分离架构特点 •扩展性：存储计算分离，按需扩缩容•成本：多个计算节点共享一份数据，降低存储成本•易用性：一写多读/透明读写分离，单机体验、•可靠性：三副本、秒级备份•可用性：毫秒级主备延迟，秒级恢复 PolarDB-PG计算存储分离计算存储分离：模块栈 •事务层：CSN快照•日志层：复制WALMeta、Lazy回放，并行回放，LogIndex•缓存层：常驻BufferPool、多版本页面•存储层：DirectIO、数据预读、预扩展、PolarVFS HTAP业务场景的传统解决方案业务背景：TP业务中大量表join（报表/对账） PolarDB-PGHTAP架构(in-house) PolarDB-PG内核原生支持MPP引擎：无需导数据提高计算节点利用率 •发挥所有RO节点的计算资源毫秒级数据新鲜度（物理流复制）•TP/AP共享一份数据，两套计算引擎，减少存储和运维成本 TP/AP物理隔离（避免CPU/MEM互相影响） •单机执行：部分节点，处理高并发的TP查询•分布式MPP执行：部分节点，复杂AP查询弹性扩展 •任何节点均可做为MPP的master节点•集群计算能力随时扩展，即时生效，数据无需重分布 PolarDB-PG - HTAP内核模块栈打造分布式执行引擎 •分布式执行器•事务一致性•分布式优化器•SQL全兼容 PolarDB-PG - HTAP分布式优化器 PolarDB优化器特点 •单机优化器：动态规划•分布式GPORCA优化器：TopDown模型实现方案 •基于ORCA扩展•与共享存储特性相结合 PolarDB-PG-HTAP分布式优化器场景：LeftOuterJoin•A⋈B=(A1⋈B)⋃(A2⋈B)•右侧需要有全量属性传统LeftOuterJoin的计划• 右表广播•Prefetchinner•Seqscan•Material 1.没有复用TP型索引2.物化算子导致流水中断 •右侧：扫描共享存储的索引•左侧：并行化分片索引扫描 PolarDB-PG-HTAP分布式执行器控制链路数据链路 •SyncRuntimeEnv•ExecuteSubTree•ShuffleSend&Receive•ParallelScan PolarDB-PG-HTAP动态扫描 •数据倾斜 •数据倾斜：Heap表引用TOAST表•计算倾斜：长事务、Buffer/网络/IO抖动 •方案 •能者多劳：算子动态请求扫描任务 •效果（时空数据库场景） •动态扫描能线性提升，消除数据倾斜 PolarDB-PG - HTAP弹性扩展 •关键点 •Coordinator全链路⽆状态•Worker全链路⽆状态 •效果 •消除Coordinator单点•算⼒SQL级别弹性扩展 PolarDB-PG - HTAP数据一致性 •计算节点内存不⼀致•元数据不⼀致•MVCC冲突 •数据版本不⼀致 •会话⼀致性•Tx1：读取V2•Tx2：读取V1 PolarDB-PG - HTAP数据一致性 •整体方案（提供会话一致性）•等待回放：保证RealLSN单调递增•Global Snapshot：最小Snapshot •选取最小的Snapshot• precedes(Snapshot s1, Snaphosts2):s1.xmin < s2.xmins1.xmax < s2.xmax比较s1.xip和s2.xips1.xip长度

点击免费查看完整报告

PolarDB-PG-HTAP详解

PolarDB-PG核心特性与HTAP解决方案

架构特点

HTAP业务场景解决方案

内核模块栈

应用场景与性能

开源社区

联系方式

你可能感兴趣

详解2024年半年报：分红率提升至33%25；高基数下业绩承压

基木鱼营销页商家卡片操作详解

固定收益专题：深度详解债券ETF发行流程与赛道分布

震荡行情下高胜算策略梳理系列之一：Alpha对冲策略详解

详解兴业银行2024半年报：净息差保持稳定，净利润增速实现由负转正

详解江苏银行2023年3季报：核心竞争力支撑业绩韧性；利润高增25%

计算机行业专题报告：“L3+自动驾驶试点通知”详解

详解欧洲财政机制、现状、空间以及制约因素：欧洲财政转向之路漫漫

详解光大银行2024年报：净利润同比增长2.2%，零售贷款不良率下降

信息流投放平台智能基建最全功能详解