登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-4 Iceberg 在微视实时场景的应用
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
Man💗
01 为何用Iceberg
背景:微视数仓架构面临实时数仓成本高、两套计算存储数据一致性和成本问题
原因分析:
Hive+Kafka:实时低延迟读写差,小文件、HMS扩展、查询效率好;离线批处理好,列存高压缩;谓词下推差,回溯强但基于分区精确回溯差;HDFS低成本,列存高压缩
Iceberg与传统存储对比:
实时读写:Iceberg优于Hive+Kafka
小文件扩展:Iceberg优于Hive+Kafka
查询效率:Iceberg优于Hive+Kafka
离线批处理:Iceberg与Hive+Kafka相当
谓词下推:Iceberg优于Hive+Kafka
回溯能力:Iceberg强于Hive+Kafka
成本:Iceberg低成本低 02 如何用Iceberg
Iceberg落地结构:
基础核心模型建设,支持实时需求(如CMS累计数据实时推送,包含owner_id、play_vv、share_num等指标)
成本降低超99%
数据回溯:
回溯场景:新增指标、修改计算口径、数据修复
问题:Source无状态导致故障恢复后产生重复数据
解决方案:
Source按表partition聚合并下发
Checkpoint按partition对齐
Source保存下发完成的分区状态,实现Exactly-once
流转批场景:
Flink写入数据时间到快照元数据
快照元数据检查任务驱动下游批处理任务
流批一体:
实现实时与批处理的统一处理 03 维护Iceberg表
数据维护效果:
表大小缩减40%-70%
二次读写时间缩短30%
用户点查效率大幅提升(过滤文件95%以上)
原理:
通过排序提高数据的局部相似度,提升压缩算法效率
Manifest文件记录DataFile中每一列取值的上下界,据此过滤DataFile
你可能感兴趣
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
实时湖仓在视频号场景的应用实践
商贸零售
-
2024-12-29
6-3 网易 Arctic:基于 Apache Iceberg 构建的实时湖仓一体系统
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-18
面向6G的泛在实时通信网络场景需求与关键技术研究报告
商贸零售
IMT
2024-11-25