数据架构现状
网易严选原有的数据架构采用 Lambda 架构,存在实时离线两套逻辑、离线数据实效性低、同步链路组件多且可维护性差等问题。为实现批流一体化并支持存储 Upsert,对比了 Apache Iceberg、Apache Hudi 和 Delta Lake 三种方案,最终选择 Iceberg 因其通用表格式解耦计算引擎、存储批流一体、支持 Upsert 和 ACID、Schema 变更、元数据管理及数据质量保障等优势。
基于Iceberg的批流一体实践
实施 Iceberg 后,新的挑战包括消息乱序和去重处理。通过一致性快照机制解决了这些问题,确保数据一致性。
Iceberg表治理
针对 Iceberg 表治理,采取了重写 DeleteFile、合并 DeleteFile 和重排序等措施,治理效果显著。
落地情况&未来规划
落地情况显示,已完成 ODS 层数据产出的批流融合,离线数据延迟缩短至 5 分钟,所有 ODS T+1 快照的制作可提前半小时,已有 500+ 任务稳定运行。未来规划包括拓展更多场景特征工程数仓、优化管理产品化、提升 Presto 查询速度,并引入 Alluxio、Z-order 和 Bloom-Filter 等技术。