您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StarRocks 2024 年度技术峰会]:3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践 - 发现报告

3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践

3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践

翁才智阿里云技术专家,Apache PaimonPMCMember范振(辰繁)阿里云计算平台开源OLAP负责人,StarRocks社区Champion 阿里集团数据湖(ALake)项目背景 全面升级为Lakehouse架构 WhyPaimon—最适合流/批/OLAP统一的湖格式 离线数仓 🐀架构简单,大量场景适用🐀中间结果可查🐀作业夜间运行 🐀延迟较高:天级/小时级🐀更新成本较高 实时数仓 🐀延迟低:秒级 🐀中间结果不可查🐀成本较高,场景有限 流式湖仓 数据管理 实时更新 海量追加 •主键表支持大规模的更新写入•更新性能高效•更新方式灵活•完整变更日志生成•分钟级延迟 •非主键表支持大规模流批处理•小文件自动合并 •PB级大规模数据管理•支持时间旅行(数据版本回溯)•支持数据分支切换•包含详细信息的系统表 高效查询 •Z-order、索引、Deletion Vector多种优化•高效OLAP查询 Paimon丰富生态 飞速发展的2024 Paimon在越来越多公司、越来越多场景,帮助业务更实时、更开放、成本更低 最适合Paimon湖格式的Lakehouse开源引擎StarRocks Why StarRocks —查询Paimon湖格式性能最好的开源引擎 Plan优化 Runtime优化 数据Scan优化 OSS/S3极致优化 Why StarRocks —存算分离架构统一查询内表和湖表 灵活的物化视图 灵活的多表联邦 灵活的弹性和隔离 统一的缓存管理 更多实时数据和分析决策 流批一体•数据时效提前60分钟•开发效率提升50%•业务获取分钟数据门槛降低•节省消息中间件和去重成本 数据开发效率需要提升 FlatJson•JSON列化后存储减少50%•JSON列化导入百亿分钟级•查询性能提升10倍 基于Paimon湖仓公共层 OLAP分析•非JOIN类场景快1倍•JOIN类查询快5倍 基于StarRocks湖仓应用层 饿了么– Lakehouse架构升级 Kappa架构(实时数仓)痛点 •SSD高昂的存储成本,DWD层需要2份冗余存储•Flink计算资源/处理成本高•TT(类Kafka)无法支持检索和更新 StarRocks x Paimon架构(Lakehouse)收益 •Flink计算资源相较于原架构减少50%•存储成本减少90%•Paimonvs Hudi时效性提高2x以上•StarRocks相较于其他外表查询方案,多场景下均远远优于其他引擎,平均提升5-10倍 赋能集团更多业务,降本提效&实时化 物化视图&基于Paimon的ETL 非结构化数据支持,探索AI +数据湖 社区贡献,场景共建