您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:基于Kyuubi和Hudi的湖仓一体实践 - 发现报告
当前位置:首页/其他报告/报告详情/

基于Kyuubi和Hudi的湖仓一体实践

2023-03-09网易徐***
基于Kyuubi和Hudi的湖仓一体实践

基于Apache Kyuubi和Hudi的湖仓一体实践主讲人:李心恺| T3出行网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周湖仓一体架构提升和挑战未来规划传统数仓面临的挑战湖仓一体架构实践传统数仓面临的挑战1网易数帆数字化基础软件自主创新分享周 原有架构痛点数字化基础软件自主创新分享周T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。随着业务发展,数据的增多,最初的传统数仓架构遇到了诸多挑战。亟需新的架构迭代升级,更好的支撑公司业务发展。网易数帆数字化基础软件自主创新分享周 支付长尾数字化基础软件自主创新分享周支付长尾:下次出行前支付!•可能长达数月的超长的业务闭环窗口•冷热数据随机更新,无法识别•级联更新,链路长,成本高订单支付率时间网易数帆数字化基础软件自主创新分享周 非结构化数据和小文件数字化基础软件自主创新分享周业务系统数据摄入非结构化数据视频数据小文件问题车联网数据小批量数据低延迟数据网易数帆数字化基础软件自主创新分享周 低效数仓合并机制数字化基础软件自主创新分享周业务系统T+1增量merge基于Join的merge机制,时延高,性能不理想大量的重复变更都会保留无法去重Binlog网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周湖仓一体架构提升和挑战未来规划湖仓一体架构实践标题标题标题标题湖仓一体架构实践2传统数仓面临的挑战网易数帆数字化基础软件自主创新分享周 Apache Hudi体系数字化基础软件自主创新分享周Hudi是一个流式湖仓一体平台,支持对海量数据快速更新。内置表格式,支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)。网易数帆数字化基础软件自主创新分享周 技术底座升级数字化基础软件自主创新分享周大数据基础设施(技术底座)数据存储资源管理计算引擎KuduYARNImpalaHDFS (Hive table)HBaseKafkaHadoop大数据平台体系(文件存储+存算一体)OLAP MPP架构体系OBS湖仓一体(对象存储+数据湖格式+存算分离)服务层存储RedisElasticsearchMongoDBPrestoHudiYARN网易数帆数字化基础软件自主创新分享周 升级湖仓一体后的痛点数字化基础软件自主创新分享周T3出行构建了以Apache Hudi为基础的企业级的湖仓一体平台,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。Hive SQL DDL/DML(欠缺,需要支持以提效)Hive 没有较好的资源隔离方案,没法根据租户权限做并发控制跨存储缺少统一网关管理如果能将平台的能力统合,并不断地优化和迭代,让用户能够通过JDBC和SQL这种最普遍最通用的技术来使用,数据生产力将可以得到进一步的提升。所以引入了Apache Kyuubi框架用以支撑。网易数帆数字化基础软件自主创新分享周 Apache Kyuubi体系数字化基础软件自主创新分享周Thrift JDBC/ODBC 服务可扩展多租户和分布式Servless SQL on Lakehouse网易数帆数字化基础软件自主创新分享周 OLAP & AD-Hoc 数字化基础软件自主创新分享周Spark EnginePresto EngineEngineStoragesession asession bsession cKyuubi GatewayClientBI工具数据开发数据探索网易数帆数字化基础软件自主创新分享周 ETL on Lakehouse 数字化基础软件自主创新分享周workflow 1 of user Aworkflow 2 of user Aclient aclient bworkflow 1 of user Bclient csession asession bsession cA’sEngineB’s EngineKyuubi GatewayCompute EngineData StorageRaw TableDerived TableIncremental ETL网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周标题标题标题标题未来规划湖仓一体架构提升和挑战湖仓一体架构实践湖仓一体架构提升和挑战3传统数仓面临的挑战网易数帆数字化基础软件自主创新分享周 Kyuubi提升点数字化基础软件自主创新分享周统一了接口和语法,使得BI用户olap场景只需关注于不同语法业务本身,不需为不同引擎去耗费精力。BI体验更好01 .跨存储联邦查询和统一多元数据管理,提升了数据一致性和开发效率上。ETL基本实现了All on SQL,减少了代码开发量。ETL提升开发效率02 .经压测,Kyuubi 效率要高于Hive on Spark 3-6倍,同时得益于Kyuubi 并发控制,并发场景更加稳定。提升资源利用率03 .使用场景提升网易数帆数字化基础软件自主创新分享周 Kyuubi提升点数字化基础软件自主创新分享周数据审计网易数帆数字化基础软件自主创新分享周 Kyuubi提升点联邦查询场景MongoDBClickHouseSpark Datasource基于Spark Datasource 实现了跨存储的联邦查询,提升了使用效率网易数帆数字化基础软件自主创新分享周 遇到的挑战数字化基础软件自主创新分享周Kyuubi对pyspark、python、shell一些脚本类任务管控缺失,这些是MLOps常用的一些场景。特征数据使用场景支持不够。MLOps场景支持较少01 .非结构化数据,ML开发生命周期,缺少元数据管理手段。非结构数据元数据管理02 .Hudi单表并发有一定限制,社区已经提供用户可以基于Zookeeper和HiveMetastore来提供锁服务,这个功能标记为experimental有待进一步完善。单表并发写03 .湖仓一体遇到的问题网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周标题标题标题标题未来规划未来规划4湖仓一体架构实践传统数仓面临的挑战湖仓一体架构提升和挑战网易数帆数字化基础软件自主创新分享周 计算中间件数字化基础软件自主创新分享周数据存储OBS资源编排YARN计算引擎FlinkHive任务调度Dolphin Scheduler数据接入Kafka计算中间件一站式平台入口数据开发数据地图机器学习引入Apache Linkis补充Kyuubi jar、脚本类任务缺失网易数帆数字化基础软件自主创新分享周 元数据数字化基础软件自主创新分享周视频数据车联网数据结构化数据数据标签数据资产数据目录表结构元数据网易数帆数字化基础软件自主创新分享周 开发生命周期数字化基础软件自主创新分享周•基于对数据目录的元数据管理,可以对不同版本模型,不同数据集合,评估模型相对于其业务目标的性能。•基于数据目录进行模型版本管理网易数帆数字化基础软件自主创新分享周 特征存储数字化基础软件自主创新分享周基于Hudi做为统一存储,利用Kyuubi对接特定引擎提供Serving,提供特征数据服务网易数帆数字化基础软件自主创新分享周 特征版本数字化基础软件自主创新分享周训练数据生成时,要求我们保存特征在不同时刻的版本,并确保特征离线消费实现正确。Hudi的版本控制很好的支持这一特性,根据Hudi commit 保证时间点正确联接,避免特征穿越问题commit-001commit-...commit-010commit-nFeature Storedata(versioned)网易数帆数字化基础软件自主创新分享周 THANKS感 谢 观 看网易数帆数字化基础软件自主创新分享周