登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-1 字节跳动数据湖索引演进
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
M.凯
字节跳动数据湖索引演进
Hudi索引介绍
传统数仓数据更新方式
:增量Join全量->覆盖历史分区,涉及读/更新全部文件及全局Join。
Hudi索引作用
:通过快速定位对应FileGroup,避免读取/更新不必要文件,将全局Join转为Local Join。
Hudi索引类型
:未详细展开,但提及BucketIndex和NonIndex两种主要类型。
问题与挑战
数据入湖场景
:实时Upsert及小时/天级批量BackFill(Upsert)。
具体挑战
:单分区包含40000个FileGroup,30TB数据量,5千亿条记录,Bloom Filter性能差导致入湖速度慢。
字节数据湖索引演进
BucketIndex
基本原理
:基于哈希的索引,提供Key<->BucketId<->FileGroupId的映射关系。
写入流程
:未详细描述,但强调其索引机制。
分区级Bucket
:支持按分区分桶。
查询优化
:
Case1
:表T1/2按A列分桶,AB列(超集)Join。
Case2
:表T1按A列分桶,A列Join。
Coalesce
:分桶数与Shuffle并行度成倍数关系,分桶数< Shuffle并行度。
MultipleInputRead
:分桶数与Shuffle并行度成倍数关系,分桶数> Shuffle并行度。
BucketPruning
:点查列==分桶列时,查全部文件转为查单个文件。
可扩展性问题
:BucketIndex可扩展性差。
ExtensibleBucketIndex
:
基础原理
:未详细描述,但强调其可扩展性改进。
公司logo
:提及公司标识。
NonIndex
非主键入湖特点
:UUID -> No Index,Upsert-> Insert / Append。
现有索引体系问题
:必须Locate+数据重新分布。
公司logo
:提及公司标识。
未来规划
二级索引
:
目标
:提升非主键列点查性能。
方法
:基于二级索引列构造BloomFilter+Multi-Modal Index,支持初始索引异步构建及事务更新。
RangeIndex
:
目标
:提升点查/范围查询性能。
社区工作
:
BucketIndex 0.11
HudiMetastore 0.12/1.0
Table Management Service 0.12/1.0
DecoupleAvro 0.12
EmbeddedTimelineServer 1.0
Flink支持 Cluster 0.12
NonIndex HUDI-2624
湖仓一体分析
产品介绍
:面向湖仓一体架构的Serverless数据处理分析服务,提供一站式海量数据存储计算和交互分析能力,兼容Spark、Presto、Flink生态。
行动号召
:扫码进入官网了解产品,加入官方交流群,扫码关注并回复【招聘】了解岗位信息。
你可能感兴趣
字节跳动数据平台的实践与演进 - 罗旋
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
3-4 字节跳动全域数据集成演进历程 - 李畅
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15
1-4 字节跳动基于 Doris 的数据湖仓探索
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-19
2-2 字节跳动 LAS 数据湖存储内核揭秘
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
1-3 张威-字节跳动自研万亿级图数据库架构演进
商贸零售
2023 Gdevops全球敏捷运维峰会
2023-07-30