您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:OLAP引擎架构峰会]:天穹OLAP:实时湖仓融合平台架构实践 - 发现报告

天穹OLAP:实时湖仓融合平台架构实践

AI智能总结
查看更多
天穹OLAP:实时湖仓融合平台架构实践

演讲人:程广旭-腾讯-高级工程师 为什么需要湖仓融合 湖仓融合新架构 未来展望及规划 为什么需要湖仓融合 实时数仓VS数据湖 实时数仓:指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。 数据湖:一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。 湖仓融合的意义 ü为什么要在湖上建仓 Ø数仓加速:基于数据湖的远程IO成本很高,且缺少一系列数仓加速的手段;早期的数据湖格式多样且不成熟,索引的支持不完善,查询性能有待提升;并且数据湖主要针对吞吐量的优化,关注低成本和高可靠,不适用于高性能的需求;虽然可以通过缓存解决一部分性能问题,但引入缓存也会带来数据一致性、查询性能不稳定等等问题 Ø实时分析:对于实时写入的流式数据,传统的数据湖写入的实时性不够,在Iceberg或者Hudi的支持下可能能解决分钟级别的时效性,但是无法解决秒级时效性的问题 Ø高并发查询:对于高并发查询,不管是点查还是聚合类的查询,数仓是更擅长的 ü为什么要湖仓融合 Ø降本增效:简化技术架构,提升架构的易用性,并增强架构可靠性,降低运维成本Ø统一数据:统一数据存储和输出,所有数据的口径都是一致的,基于相同的数据计算,保证数据的一致性Ø数据治理:湖仓融合的数据底座统一了主数据和元数据,基于此才有可能做上层统⼀的数据治理 传统的实时湖仓一体架构 优点: •增量读取,实时性好,成本低•相较MQ更加稳定性 实时湖仓融合平台 缺点: 优点: •相较于iceberg等湖格式,支持的湖能力欠缺•数据可能会存储多份,有一定的冗余 •接入简单,只需创建实时入库任务•数据实时性更高,分钟级->秒级•查询性能更优,亚秒级 注:SuperSQL是腾讯大数据自研的下一代大数据自适应计算平台。 湖仓融合总体架构 实时入库–Pulsar数据源 背景:腾讯内部有大量的团队在使用Pulsar,但SR只能通过kop插件消费pulsar中的数据,性能较差,亟需原生支持Pulsar数据,提升消费性能。 处理流程: Pulsar数据源处理流程 实时入库–Pulsar数据源消费性能 •集群消费峰值: 165w/s •单consumer消费能力: 2.5w/s,52MB/s •消费能力可通过扩展partition/consumer数量水平扩展 数据降冷–创建降冷任务 降冷任务:新增降冷任务命令,并配置导出过程中需要的一些参数,比如:导出任务占用内存、导出格式、超时时间等等,最后指定降冷到湖的表名,如果表不存在则会自动创建该表。 导出任务:扩展Export功能,支持将数据导出到指定的湖表,目前支持了Iceberg、Hudi、Hive等表类型。 数据降冷–流程 数据降冷过程: 离线入仓–离线数据入仓 难点 1.数据什么时候准备好?2.任务什么时候开始调度?3.任务重跑如何更新仓中数据? 统一调度 统一调度是腾讯大数据自研的分布式千万量级任务调度平台,服务了腾讯公司所有BG数据开发和运维等用户可视化管理任务规则和依赖关系,有序下发实例和调度数据,日均执行实例超过千万。 支持的功能 1.统一调度支持按小时/日/月等多粒度调度,支持任务依赖、重跑等 2.在统一调度中开发将Hive/HDFS等源入库到仓的插件,用户只需要配置下表的映射关系、自动创建仓表、可配置自定义的相关命令 离线入仓–湖中数据准实时入仓 背景:业务一般会通过Flink+iceberg来对数据准实时入库到湖中,而湖中的数据也支持通过流式方式读取增量数据,为了提升湖仓中数据的实时性,我们在仓中新增了准实时增量消费湖中数据的功能。 融合查询 自适应冷热查询示例: selectdate, count(uid) aspvfromtable_hotwheredate >=20221128anddate <=20221203group bydate 融合查询流程: 1.接收SQL,按照正常流程解析SQL2.命中冷热查询改写规则,根据元数据中记录的热表TTL、冷热表字段映射等信息改写计划3.优化新生成的冷热查询计划4.生成最终执行计划 selectdate, count(uid) aspvfromtable_hotwheredate >=20221201anddate <=20221203group bydateUnionallselectdate, count(uid) aspvfromtable_coldwheredate >=20221128anddate <=20221230group bydate 性能测试 本节主要是基于TPC-H标准数据集(100GB),对比了SR内表、使用SR和presto查询iceberg的查询性能,经过对比结论如下: •SR内表查询性能分别是Presto查询iceberg的4-65倍,是SR直接查iceberg表的1-25倍•通过冷热融合查询可以给业务带来明显的性能提升,预计可提升3倍左右 未来展望及规划 天穹DB:借助SuperSQL来实现自适应冷热导流分层,数仓以模块化的方式嵌入进来,实现冷热数据进行快速查询处理。 感谢观看