登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
6-3 网易 Arctic:基于 Apache Iceberg 构建的实时湖仓一体系统
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
光影
网易ARCTIC基于APACHE ICEBERG构建的实时湖仓一体系统
业务当前的挑战Lambda 架构下流与批割裂带来的问题
Lambda 架构问题
:当前采用 Lambda 架构进行数据处理,存在流批计算割裂的问题,导致数据孤岛、独立采购和部署、冗余存储浪费成本、难以数据复用和互通、研发体系割裂、研发人效低、研发规范不通用、应用层视图合并复杂、指标和语义二义性等问题。
场景分析
:通过两个场景(初步引入实时化和更加复杂的实时化)展示了 Lambda 架构下数据处理的复杂性和低效性。
基于iceberg 构建的湖仓一体系统
Arctic 定位
:Arctic 是定义在 Hive/Iceberg 表格式之上,计算引擎之下的 TableService,并提供表结构优化以及 Kafka 封装的实时湖仓系统。
Arctic Table 功能特性
:
Hive/Iceberg 兼容
:支持 Hive 的摄取与计算场景(T+1/T+H 场景),以及 Iceberg/Delta Lake 的摄取与计算,通过快照隔离实现 MVCC 和 ACID,支持数据实时摄取。
Batch 和 Stream 写入区分
:将 Batch 和 Stream 写入的文件进行区分,分为 change store 和 base store,通过异步的 optimizing 对 stream 写入的文件进行合并,并提供了小文件治理、唯一键保证和 upsert 的能力,并通过 ArcticTable 封装的接口提供 merge on read,实现准实时的读写能力。
Primary Key 支持
:支持 Primary Key,支持 CDC ingestion,实现 Upsert 语义,主键唯一性约束实现,Merge on read,optimize,未来扩展 Sort Key / Agg Key。
Auto Optimize
:包括 Minor Optimize(约 10min 一次,优化小文件数量,eq-del 转换为 pos -del,只针对 change file)和 Major Optimize(约 1 day 一次,合并 change file 到 base file,兼容 Hive 读)。
流批一体表(支持 CDC)
:下游可订阅 Arctic 表变更,支持 Hidden Queue,秒级延迟订阅,通过消息回撤实现最终一致性,arctic-flink-connector 封装双写和回撤实现细节。
流批一体表(双写一致性保证)
:通过 Hidden Queue 和 Retract 机制实现双写一致性保证。
流批一体表(支持Lookup join)
:通过 Hidden kv index 支持 lookup join,同样不需要关心实现细节,Arctic Table 可以直接当维表用。
流批一体表(支持Temprol join 规划中)
:基于 Flink1.12 Temprol Table(时态表)功能,不需要引入额外的 KV 组件,支持 event time join。
并发写入与一致性保证
:通过 AMS 分配 txId,标记记录写入先后顺序,Merge on read 时,确认可见 record 为哪一个,Minor/Major Optimize 时,确认应该保留哪一个 record。
Hive 兼容
:支持 hive 表原地升级为 Arctic 表,支持将 Arctic base store 作为 hive 表读取,支持将 Arctic 表作为 hive 表写入(INSERTOVERWRITE),通过 optimize 实现实时写入到 hive 表数据的同步,自动识别 Hive 写入文件。
Arctic Meta Service (AMS)
:被定义为新一代的 HMS,负责 Arctic Table Metadata 管理,分配事物 ID,面向计算引擎的元数据服务,触发结构优化任务,Optimizer 调度与资源管理,提供运维友好的 Dashboard。
AMS Dashboard
:展示 Transaction 提交的文件信息,Table Optimizer 任务执行信息。
业务实践Arctic 在网易内外的实践
推送营销分析案例
:展示了如何使用 Arctic 进行推送营销分析,通过 merge on read 推送分析报表,通过 base 和 kv index 提供实时数仓能力,优化报表响应时间 10x-100x。
未来规划
更多流批一体场景
:Rollup 聚合视图,Sort Key 支持,部分列的 Stream upsert,支持 Temprol Join。
更强的 Dashboard
:任务血缘与数据血缘,SQL 自助查询。
安全体系完善
:支持开放式的权限插件,支持对接 Ranger。
数据湖支持
:S3/OSS。
开源计划
:预计 6 月底,敬请期待。
你可能感兴趣
B站基于Iceberg构建秒级响应湖仓一体平台的技术实践
商贸零售
DataFunSummit2023:数据湖架构峰会
2023-07-12
基于 IceBerg 湖仓一体架构演进
商贸零售
网易
2023-03-09
1-2 基于 Apache Doris 构建实时统一的现代数据分析平台
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
网易流批一体的实时数据湖实践 -周劲松
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19