您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:从 Snowflake和Deltalake看数据湖自主创新 - 发现报告
当前位置:首页/其他报告/报告详情/

从 Snowflake和Deltalake看数据湖自主创新

2023-03-09网易顾***
从 Snowflake和Deltalake看数据湖自主创新

从Snowflake和Deltalake看湖仓一体自主创新主讲人:马进| 网易数帆网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周CONTE网易数帆湖仓一体创新之路3湖仓一体核心技术解析2数据湖技术前生今世1总结与规划4NT网易数帆数字化基础软件自主创新分享周 数据湖技术 前生今世数字化基础软件自主创新分享周网易数帆数字化基础软件自主创新分享周 数据湖的权威定义James Dixon, then chief technology officer atPentaho, coined the term by 2011Adata lakeis a system orrepository of datastored in its natural/raw format,usually object blobsor files. A data lake is usually a single store of data including raw copies of source system data, sensor data, social data etc.,and transformed data used for tasks such asreporting,visualization,advanced analyticsandmachine learning网易数帆数字化基础软件自主创新分享周 为什么需要数据湖More people access data网易数帆数字化基础软件自主创新分享周 Hadoop 生态蓬勃的二十年网易数帆数字化基础软件自主创新分享周 Lakehouse 接力新赛道网易数帆数字化基础软件自主创新分享周 Lakehouse 接力新赛道Data Warehouse•No support for video, audio, text•No support for data science, ML•Limited support for streaming•Closed & proprietary formatsData Lake•Poor BI support•Complex to set up•Poor performance•Unreliable data swamps网易数帆数字化基础软件自主创新分享周 Lakehouse 接力新赛道Lakehouse:data lake + warehouseDelta lake网易数帆数字化基础软件自主创新分享周 Lakehouse 接力新赛道标签:高性能,SAAS,Cloud oriented网易数帆数字化基础软件自主创新分享周 Lakehouse 接力新赛道$ 38 Billion (estimate)$ 37.9 Billion Highest: 100B网易数帆数字化基础软件自主创新分享周 Lakehouse处于技术跃迁期2021 hype cycle for data management网易数帆数字化基础软件自主创新分享周 小结:什么是数据湖网易数帆数字化基础软件自主创新分享周 小结:什么是lakehouseLakehouse网易数帆数字化基础软件自主创新分享周 小结:Snowflake、Databricks引领湖仓一体标准Gartner2021数据库领导力象限网易数帆数字化基础软件自主创新分享周 湖仓一体核心技术解析数字化基础软件自主创新分享周网易数帆数字化基础软件自主创新分享周 •Aimed for structured data•Operation transactional•SQL extensions•Incremental/stream processing数据湖开源三剑客ACIDMVCCUpdate/deleteMerge intoTime travelrollback网易数帆数字化基础软件自主创新分享周 从Hive到Lakehouse•Map table to static directories•One write, No ACID guarantees•One operation, one snapshot•Multiple write, Optimistic concurrence control•incremental processing snapshots网易数帆数字化基础软件自主创新分享周 Delta lake元数据管理•Data files•Log filesproduce snapshots•Checkpoints aka. compactions网易数帆数字化基础软件自主创新分享周 Lakehouse 高级特性Schema evolutionSQLextensions:MERGE INTO网易数帆数字化基础软件自主创新分享周 小结:Lakehouse核心特性building Transactionallayer on data lake网易数帆数字化基础软件自主创新分享周 小结:Lakehouse核心特性ACIDMVCCschema evolutiontime travelrollbackSQL extensionsincremental processupdate/deletemerge intofor batch processing网易数帆数字化基础软件自主创新分享周 网易数帆湖仓一体 创新之路数字化基础软件自主创新分享周网易数帆数字化基础软件自主创新分享周 Lakehouse目前的不足lakehouselakehouselakehouse所读即所写•Deltalake/iceberg是table format,是元数据封装•CDC数据写入后需要用户调用MERGEINTO合并数据•流式摄取带来海量小文件问题,需要用户optimize•需要用户自己调用optimize来排序实时能力不足•基于Lakehouse的流计算延迟在分钟级别•需要引入消息队列实现毫秒/秒级流计算•需要用户自己保障数据一致性网易数帆数字化基础软件自主创新分享周 一个简单场景订单商品用户交易明细表订单原始表商品原始表用户原始表距离流批一体还差什么?•实时CDCingestion•实时CDC subscription•秒级/毫秒级需要引入消息队列•实时多表join需要引入kv?•用户需要自己同步kv?•能否用一套代码?能否用用户熟悉的代码?推荐风控大屏报表ML挖掘网易数帆数字化基础软件自主创新分享周 Arctic:流式湖仓服务我们的目标•提供可靠的Lakehouse服务•解决主流Lakehouse的不足•面向更多流批一体的场景•尽可能不要重复造轮子•寻求代际型解决方案网易数帆数字化基础软件自主创新分享周 Arctic:流式湖仓服务Arctic是什么?Arctic是搭建在apache iceberg 表格式之上的开放式流式湖仓服务。Arctic 面向流场景提供优化的CDC和流式更新能力;也可以开放式地集成MQ,KV 等中间件,向flink、spark、trino提供流批统一的表服务;通常情况下,arctic 像一个独立的数仓服务,用户无需关心数据存储结构,大小和分布,或是否引入其他中间件网易数帆数字化基础软件自主创新分享周 Arctic capabilities透明的流式湖仓服务•CDC ingestion•Stream upsert•小文件合并•结构自优化网易数帆数字化基础软件自主创新分享周 Arctic capabilities流批一体功能封装•毫秒/秒级延迟流计算•分钟级延迟流计算•小时级延迟批计算•流和批场景下的关联计算hoursminutessecondsstream writebatch writestream readbatch readlookup joinbatch joinhoursminutesseconds网易数帆数字化基础软件自主创新分享周 Arctic capabilities•基于Arctic流批一体表服务•研发过程统一•研发规范统一•指标语义统一•存储统一,消除孤岛•降本提效•降本30%- 50%,提效2倍应用层sparkImpala/trinospark数据源flinkflinksparkflinkArcticArctic网易数帆数字化基础软件自主创新分享周 Arctic vs HudiLake StorageHudi Data LakeProcess/Query EnginesArcticHudiArctic定位•Streaminglakehouseservice•Built on iceberg table format•与iceberg/hive完全兼容•复用iceberg功能schema evolve, hidden partition etc.Arctic专注于•Stream upsert on data lake•Self optimized service•流批一体功能封装•方法论与标准化工具.网易数帆数字化基础软件自主创新分享周 总结与规划数字化基础软件自主创新分享周网易数帆数字化基础软件自主创新分享周 总结与规划Arctic: 基于Iceberg的流式湖仓服务•基于主键的流式更新•数据自优化服务•与iceberg/hive 表格式兼容•流批一体功能封装核心竞争力•格式兼容,架构开放•解决one or the other的问题网易数帆数字化基础软件自主创新分享周 总结与规划7月开源,不见不散Arctic: 基于Iceberg的流式湖仓服务•基于主键的流式更新•数据自优化服务•与Iceberg/Hive 表格式兼容•流批一体功能封装网易数帆数字化基础软件自主创新分享周 THANKS感 谢 观 看网易数帆数字化基础软件自主创新分享周