您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:网易湖仓一体的机遇与挑战 - 发现报告
当前位置:首页/其他报告/报告详情/

网易湖仓一体的机遇与挑战

2023-03-09网易朝***
网易湖仓一体的机遇与挑战

网易湖仓一体的机遇与挑战2021网易数字+大会马进网易数帆网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会02030401流批一体目录湖仓一体场景与实践未来规划网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 流批一体网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会离线数仓体系数据传输离线传输离线表AP系统APPspark / sqoophivespark / hivespark / hiveimpala / sparksql数据开发数据资产数据血缘数据质量数据分析有数数据模型任务运维按天调度驱动数据服务网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会业界实时数仓体系实时传输实时/流表AP系统APPkafkakafkaflinkimpala + kududruid / dories/clickhouseredis/mysql/oracle实时开发实时血缘实时任务监控运维flink事件驱动离线传输离线表AP系统APP按天调度驱动网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存在的问题主题域/数据分层数据模型数据质量数据资产传感器日志数据库数据源实时开发需求实时开发需求实时开发需求数据治理VS点对点开发网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存在的问题01链路重复建设离线处理链路无法复用,开发体系割裂,离线实时两套代码02数据不统一03数据孤岛数据冗余浪费成本,数据规范难以统一,指标口径难以统一,无法统一治理实时数仓没有基于数据湖,需要独立资源部署,数据往往有进无出,每个业务需要从源头追溯数据能效规范成本归根结底,是实时数仓没有流批一体,没有全面中台化网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会目标:实时数据中台离线传输流批一体表AP系统APPspark / hive / flinkspark / flinkimpala / sparksql数据开发数据资产数据血缘数据质量数据分析有数数据模型任务运维周期+事件驱动数据服务实时传输网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会流批一体目标拆解存储流批一体开发流批一体应用流批一体统一schema统一存储引擎统一存储介质消除二义性使用一套代码覆盖实时和离线场景统一UDF统一开发规范数据模型数据资产数据质量数据血缘数据传输网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 湖仓一体网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存储流批一体离线传输流批一体表AP系统APPspark / hive / flinkimpala / sparksql数据开发数据资产数据血缘数据质量数据分析有数数据模型任务运维周期+事件驱动数据服务实时传输网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存储流批一体流批一体表流批统一schema流式写入和更新批量写入和替换实时数据分发增量数据抽取流批文件治理数据快照管理ACID保障在线修改表结构实时写入增量写入批量写入实时订阅增量消费批量计算批查询增量查询Offline DDLOnline DDL网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存储流批一体流批一体选型实时写入增量写入批量写入批查询增量查询Offline DDLOnline DDL实时订阅增量消费批量计算商业数仓开源数仓数据湖•生态封闭•数据孤岛•价格高昂•生态半开放•数据孤岛•无法实时订阅•无法增量消费•生态全开放•存算分离架构•无法实时订阅•无法流式更新网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会流批一体选型实时写入增量写入批量写入批查询增量查询Offline DDLOnline DDL实时订阅增量消费批量计算商业数仓开源数仓数据湖•生态半开放•数据孤岛•无法实时订阅•无法增量消费•生态全开放•存算分离架构•无法实时订阅•无法流式更新•生态封闭•数据孤岛•价格高昂存储流批一体网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会湖仓一体实时写入增量写入批量写入实时订阅增量消费批量计算批查询增量查询Offline DDLOnline DDL文件治理ACID快照管理流式写入更新数据purge批量读增量读实时分发存储流批一体网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会存储流批一体=湖仓一体=基于数据湖实现所有数仓功能支持流式更新,基于主键更新实时/准实时更新数据支持实时,增量,批量三种数据读方式,且支持数据分钟级延迟ACID保障,支持三种方式的并发写入,保障数据一致性快照和版本管理,支持版本回溯和回退小结网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会Arctic 为广褒的北极洲,寓意既有连绵的冰山,也有川流不息的北冰洋,冰山是一个一个数据文件,构成了批表的冰原,水为计算,将数据连接在一起,打通实时数据和离线数据的壁垒,形成流批一体的实时数仓,北极洲也需要治理,需要在平台侧构建流批一体的上层建筑实时数据湖ArcticArctic网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会Arctic数据流图key indexChange dataBase datakey indexkey indexChange dataBase datakey indexChange dataBase data传感器日志数据库OLAP merge on readkey indexChange dataBase datachange database datadata sourceArctic ODSArctic 维表Arctic DWDArctic DWSKV存储网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会streamstreamstreamstreamstreamstreamstreambatchbatchbatchbatchstream统一元数据中心流批一体治理服务元数据中心数据资产数据血缘数据模型流批一体数据湖流批一体产品栈数据开发数据质量数据传输Databaseunified ingestionregisteruseunified tableuseusestream / batchstream / batch流批一体+ 湖仓一体架构网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 方案与实践网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会基于实时湖仓的Kappa架构EasyCDCFlink流批一体批计算数据库/日志数据源数据回补kafka数据加工Arctic 实时数据湖(流批一体,湖仓一体)数据仓库实时同步数据数据回补统一查询引擎(impala/presto/sparksql)统一查询保证一致性网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会流批统一Schema网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会实时开发网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会批查询网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会网易数字+大会 网易数字+大会性能数据•测试场景•100GB 批数据•20GB 增量数据•16个并发•结论•查询性能普遍优于HudiQuery:select