登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
Jingsong Lee - Flink Table Store:流批一体存储
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
大表哥
核心观点与关键数据
业务需求
流批统一存储
:打造流式数仓,支持流写、流读、OLAP 可查询、毫秒级实时流读、批写(INSERT OVERWRITE)。
统一抽象
:提供最完善的 Flink Connector,支持 Flink SQL 所有概念、任意 Flink Job 输出、所有类型,同时要求 Managed、干净简单、支持大规模更新。
使用 Flink Table Store
表管理
:支持创建、删除物理表,具备数据库级体验。
统一查询
:基于执行运行模式(batch/streaming)进行查询,支持所有变更日志流。
统一写入
:支持流式写入和批式写入(INSERT OVERWRITE),支持大规模更新。
理解 Flink Table Store
LSM 结构
:采用 LSM(Log-structured merge-tree)作为核心数据结构,支持高效更新和快速读取。
文件格式
:采用列式存储格式,存储在 DFS 或云对象存储中。
性能优势
:通过 Key Min Max 定位文件,Sort Merge Join 合并文件,实现高效更新和读取。
业界更新方案对比
Copy on Write (DeltaFull)
:定位文件和合并文件效率高,但实时性低。
Delta Merge on Read (DeltaFull)
:本质是延迟的 Copy+New,效率仍受限。
Apache Hudi
:BloomFilter 假阳性问题、Flink State 问题影响性能和可用性。
Roadmap
V0.1
:无服务,首个 beta 版本。
V0.2
:无服务,生产版本(6-7 月)。
V0.3
:Table Store 服务(9-10 月)。
V0.4
:Table Store 服务,支持 Lookup(后续版本)。
项目与价值
项目信息
:Apache Flink 子项目,GitHub、用户文档、邮件列表、钉钉群。
短期业务价值
:实时中间层可查、离线数仓加速,提供增量更新能力和准实时 OLAP 查询。
分层设计
:Bronze/Silver/Gold 层级存储,支持实时查询和离线加速。
你可能感兴趣
1-3 Flink Table Store v0.2 应用场景和核心功能
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-18
字节基于HUDI的批流一体存储实践
商贸零售
DataFunSummit2023:数据湖架构峰会
2023-07-12
4-1 流批一体的实时多维分析
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-19
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
【财联社早知道】首次明确!国家数据局将实施“数据要素X”行动,行业有望进入加速发展期,这家公司具备六位一体的大数据核心能力;冬季呼吸道传染病高发,它研发了国内第一个获批临床的甲流病毒RNA聚合酶抑制剂
商贸零售
未知机构
2023-11-26