行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

阿里云（王峰）：湖仓一体全面开启实时化时代

2024-07-02王峰Streaming Lakehouse Meetup小***

王峰（莫问）阿里云开源大数据平台负责人 Streaming Lakehouse Meetup DataLake+DataWarehouse=DataLakehouse ApachePaimon–Unified Lake Format AlakeformatthatenablesbuildingaRealtimeLakehouseArchitecturewithFlinkandSparkforbothstreamingandbatchoperations ThePast,PresentandFutureofApachePaimon Paimon Paimon Became Apache Top-Level-Project Became Apache Incubating Project •Graduated from Apache Software Foundation•Integrated withFlink/ Spark / Presto/… •RenametoApachePaimon•Open to others rather thanFlink TableStore InitializedinApacheFlink GAVersionRelease UnifiedLakeFormat •SubProjectofApacheFlink•Originalname-FlinkTableStore •ProductionReady•ForBothStreaming&Batch •Unifiedfor Streaming/Batch/OLAP•Compatible with Apache Iceberg Streaming LakehouseisComing HoursMinutes,Seconds ApachePaimon已明确为阿里巴巴统一数据湖格式 Apache Paimon统⼀⼤数据湖存储底座李劲松/ApachePaimonPMCChair Streaming Lakehouse Meetup 01 从孵化到毕业，Paimon的发展与场景 02 统一存储底座，Paimon与流、批、OLAP 目录>> 03 完整生态集成，Paimon的计算引擎推荐 04 阿里巴巴实践，Paimon数据湖战役 01从孵化到毕业，Paimon的发展与场景数据架构的演进：流批一体的Lakehouse Paimon前身FTS诞生的特点与优势 03国人主导社区 02流式数据湖 01实时数据湖 1.深度集成Flink流式计算2.流读流写+融合状态计算 1.低成本的支持了湖上更新2.开放的数据、格式、计算 1.面向国内企业解决问题2.沟通和响应更加顺畅 Paimon的核心场景构建流式链路 CDC入湖极速OLAP查询 •Z-Order+索引结合计算极速分析 •变更日志生成机制，融合状态计算 •一键整库入湖，大幅简化架构 •引擎平权发展：Flink,Spark,StarRocks,Trino •真正的队列：消费者机制、变更日志单独生命周期 •近实时更新，极速查询 •灵活更新：部分列更新，多种聚合更新 •轻状态低成本的流式链路 02统一存储底座，Paimon与流、批、OLAP 流、批、OLAP一体化架构 Paimon的统一存储发展批流 OLAP •深度集成OLAP引擎：StarRocks、Trino等•推广DeletionVectors模式，近实时更新，极速查询•加强Z-Order及丰富的索引，加速查询 •结合Flink打造流批一体架构，流批一体计算+流批一体存储 •与Flink深度集成，共同往前发展 •深度集成Spark，打造State-Of-Art的批读批写性能 03完整生态集成，Paimon的计算引擎推荐 Paimon计算生态 04阿里巴巴实践，Paimon数据湖战役阿里巴巴业务应用场景 2万+FlinkCu 100+作业 20+业务方统一湖存储：打通阿里云所有计算引擎 Paimon与ServerlessFlink Paimon与MaxCompute CREATECATALOG`dw`WITH('type'='paimon','metastore'='maxcompute',...); INSERT INTOdw.order_dw.dwd_orders SELECT…… 探索ApachePaimon在阿里智能引擎的应用场景王伟骏（鸿历）Apache Yarn && Flink Contributor阿里巴巴智能引擎事业部技术专家 Streaming Lakehouse Meetup 01 阿里智能引擎AI业务背景介绍 02 引入Paimon原因、场景及预期收益 03 遇到的问题及解法 01阿里智能引擎AI业务背景介绍业务场景及特点产品介绍及成果产品定义：提供AI领域端到端的ETL数据处理解决方案的一个产品愿景：Makee2ebigdataprocesseasyand efficient! 流批一体 02引入Paimon原因、场景及预期收益引入Paimon原因成本公司战略公司要建立集团数据湖生态，湖仓协同，促进集团数据资产集中存储，高效使用。存储成本居高不下，很多实效性要求不高的场景，其实没必要用成本较高的分布式存储服务来支持。优化解决Lambda架构缺点我们调用发现数据湖在某些场景下可以解决业务性能瓶颈。 Lambda架构开发维护复杂存在资源浪费情况基于以上几个原因，我们深度对比了业界几大数据湖产品（Paimon、Iceberg、Hudi）之后，结合业务需求及社区发展情况等因素综合考虑，最终选择了ApachePaimon作为我们数据湖的湖格式。探索场景及预期收益一、样本生成链路一、原链路缺点 1、流批不统一，完全两条处理链路。2、时效性要求不高但是存储服务的资源成本却居高不下。一、新链路预期收益 1、流批一体2、可以共享部分存储资源。3、用DimJoin替换SortMergeJoin，提升性能。4、减少很多存储服务的成本。一、原链路缺点 1、索引平台读取消息队列中的样本数据Build索引会有长尾，导致产出延迟。2、依赖组件多，整体链路太绕，导致运维成本高，可控性差。二、新链接预期收益依赖组件减少，产出延迟可控，运维及费用成本均可降低。探索场景及预期收益三、图片特征计算链路一、原链路缺点1、原系统Partition数受限，所以分了十多张KV表存图片Cache，用户使用不便。2、每天上亿个新图片，服务端Build链路不稳定，经常遇到OOM和磁盘不足等问题。二、新链路预期收益 1、由于去除了KV系统的服务端，所以不存在Build链路不稳定的情况。2、Paimon表的Bucket数可以设置成很大，一张表足以。探索场景及预期收益五、搜索全量拉库链路一、原链路缺点二、新链路预期收益 1、并发有上限限制，吞吐受限，而盲目加并发有拉挂库的风险。 2、核心库拉取时间只能晚上。3、每个应用都要拉一遍Mysql表。 1、并发无上限，释放吞吐。2、全天24小时均可拉取。3、Mysql表只需拉取一次，能做到共享。 03遇到的问题及解法问题一及解法、Snapshot Expire导致批作业运行失败拉取PaimonSnapshot过程中，Snapshot Expire被删了怎么办？尝试过以下三种解法：1、将Consume-id从流场景扩展到批场景。 2、统一加大SnapshotExpire时间。3、各App分别创建Tag，作业结束后自己负责删除Tag。解法：首先Tag支持精细化TTL，然后App不再ScanSnapshot，而是ScanTagWithTTL。每个业务知道自己的业务逻辑，所以可以设置自己需要的TTL 同时该方法也可以给平台兜底，防止漏删Tag的情况发生。另外，我们对老版本Tag及Snapshot都做了兼容。 tagCreateTimetagTimeRetained ClassTagextendsSnapshot 不同App业务逻辑不同，导致Job运行时长不同。 https://cwiki.apache.org/confluence/display/PAIMON/PIP-20%3A+Introduce+TTL+for+tag 问题二及解法、SchemaEvolution 一、不依赖Flink-CDC来实现SchemaEvloution的原因：1、Flink-CDC不支持集团TDDL(基于Java语言的分布式数据库系统，提供分表分库等功能) 2、Debezium不支持集团用的Mysql版本二、没采用Paimon官网的RichCdcSinkBuilderAPI实现SchemaEvloution的原因：1、平台全部作业统一用FlinkSQL，暂无支持DataStream的计划。所以我们另辟蹊径，用CloneTable来支持SchemaEvloution。问题三及解法、DataMigration 1、业务遇到DFS集群裁撤，需要数据从DFS集群A迁移到DFS集群B。 2、由于阿里云降价，所以有云上用户想将数据从别的云厂商的云迁移到AliYun上。以上两种情况的解法：提供CloneTable这种DataMigration工具。支持Catalog、Database、Table、Snapshot、Tag等CloneType。 https://cwiki.apache.org/confluence/display/PAIMON/PIP-18%3A+Introduce+clone+Action+and+Procedure ApachePaimon在蚂蚁的应用闵文俊/ApachePaimonCommitter Streaming Lakehouse Meetup 01 蚂蚁Paimon应用场景 02 蚂蚁Paimon功能增强 03 未来规划什么是Paimon 流批一体丰富生态实时更新 OLAP友好 •支持流读•支持批读•支持Timetravel•支持维表点查•全增量一体消费 •LSMTree•ChangelogProducer•MergeEngine•DeletionVector •Hive•Flink•Spark•Trino•Presto•Starrocks•Doris•… •列式存储•Statistics•DataLayout优化 01蚂蚁Paimon应用场景长周期累计去重长周期累计去重 u资源开销方面,基于Paimon方案CPU使用量约下降60%,内存使用量约下降35% uCheckpoint稳定性得到大大的提升,cp大小和cp耗时下降90% 极速核对 u节约了80%的存储资源以及70%的计算资源u在最后⼀批发奖的过程中，节约了1.2⼩时的核对时间，提⾼了保障同学以及五福业务同学的幸福度。离线分析查询加速难点: 1.数月历史数据回溯2.响应时效要求高离线分析查询加速 u存储成本更低,使用paimon作为统一存储，替换了昂贵的Hbase和ES存储资源u数据时效性高,近线数据实时同步，分钟级对用户可见（取决于checkpoint间隔），天级离线数据同步也从19小时降低到不足1小时u运维成本低,使用Flink作为统一计算引擎，使用paimon作为通用存储，运维更高效u根治了交易分析数据不准确的老大难问题.原方案数据在odps、hbase、es存储多份，数据一致性难以保证，使用flink+Paimon架构保证了查询的准确性u通过Sort Compact +BloomFilter索引的优化,在查询阶段可以过滤⼤量的数据,基本可以达到5

点击免费查看完整报告

你可能感兴趣

阿里云（王峰）：湖仓一体全面开启实时化时代

你可能感兴趣

6-3 网易 Arctic：基于 Apache Iceberg 构建的实时湖仓一体系统

网易流批一体的实时数据湖实践 -周劲松

Hive数仓数据迁移，Apache Doris离线实时一体数仓搭建

Iceberg实时湖仓数据分析性能优化

腾讯云TCHouse-D云上实时湖仓构建和进化