登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
4-4 Iceberg 在微视实时场景的应用
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
M***
AI智能总结
查看更多
01 为何用Iceberg
背景:微视数仓架构面临实时数仓成本高、两套计算存储数据一致性和成本问题
原因分析:
Hive+Kafka:实时低延迟读写差,小文件、HMS扩展、查询效率好;离线批处理好,列存高压缩;谓词下推差,回溯强但基于分区精确回溯差;HDFS低成本,列存高压缩
Iceberg与传统存储对比:
实时读写:Iceberg优于Hive+Kafka
小文件扩展:Iceberg优于Hive+Kafka
查询效率:Iceberg优于Hive+Kafka
离线批处理:Iceberg与Hive+Kafka相当
谓词下推:Iceberg优于Hive+Kafka
回溯能力:Iceberg强于Hive+Kafka
成本:Iceberg低成本低 02 如何用Iceberg
Iceberg落地结构:
基础核心模型建设,支持实时需求(如CMS累计数据实时推送,包含owner_id、play_vv、share_num等指标)
成本降低超99%
数据回溯:
回溯场景:新增指标、修改计算口径、数据修复
问题:Source无状态导致故障恢复后产生重复数据
解决方案:
Source按表partition聚合并下发
Checkpoint按partition对齐
Source保存下发完成的分区状态,实现Exactly-once
流转批场景:
Flink写入数据时间到快照元数据
快照元数据检查任务驱动下游批处理任务
流批一体:
实现实时与批处理的统一处理 03 维护Iceberg表
数据维护效果:
表大小缩减40%-70%
二次读写时间缩短30%
用户点查效率大幅提升(过滤文件95%以上)
原理:
通过排序提高数据的局部相似度,提升压缩算法效率
Manifest文件记录DataFile中每一列取值的上下界,据此过滤DataFile
你可能感兴趣
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16
实时湖仓在视频号场景的应用实践
-
2024-12-29
面向6G的泛在实时通信网络场景需求与关键技术研究报告
信息技术
IMT
2024-11-25
Flink CEP 在实时风控场景的落地与优化
信息技术
DataFunSummit2023:智能风控峰会
2023-08-09