登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-1 字节跳动数据湖索引演进
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
M***
AI智能总结
查看更多
字节跳动数据湖索引演进
Hudi索引介绍
传统数仓数据更新方式
:增量Join全量->覆盖历史分区,涉及读/更新全部文件及全局Join。
Hudi索引作用
:通过快速定位对应FileGroup,避免读取/更新不必要文件,将全局Join转为Local Join。
Hudi索引类型
:未详细展开,但提及BucketIndex和NonIndex两种主要类型。
问题与挑战
数据入湖场景
:实时Upsert及小时/天级批量BackFill(Upsert)。
具体挑战
:单分区包含40000个FileGroup,30TB数据量,5千亿条记录,Bloom Filter性能差导致入湖速度慢。
字节数据湖索引演进
BucketIndex
基本原理
:基于哈希的索引,提供Key<->BucketId<->FileGroupId的映射关系。
写入流程
:未详细描述,但强调其索引机制。
分区级Bucket
:支持按分区分桶。
查询优化
:
Case1
:表T1/2按A列分桶,AB列(超集)Join。
Case2
:表T1按A列分桶,A列Join。
Coalesce
:分桶数与Shuffle并行度成倍数关系,分桶数< Shuffle并行度。
MultipleInputRead
:分桶数与Shuffle并行度成倍数关系,分桶数> Shuffle并行度。
BucketPruning
:点查列==分桶列时,查全部文件转为查单个文件。
可扩展性问题
:BucketIndex可扩展性差。
ExtensibleBucketIndex
:
基础原理
:未详细描述,但强调其可扩展性改进。
公司logo
:提及公司标识。
NonIndex
非主键入湖特点
:UUID -> No Index,Upsert-> Insert / Append。
现有索引体系问题
:必须Locate+数据重新分布。
公司logo
:提及公司标识。
未来规划
二级索引
:
目标
:提升非主键列点查性能。
方法
:基于二级索引列构造BloomFilter+Multi-Modal Index,支持初始索引异步构建及事务更新。
RangeIndex
:
目标
:提升点查/范围查询性能。
社区工作
:
BucketIndex 0.11
HudiMetastore 0.12/1.0
Table Management Service 0.12/1.0
DecoupleAvro 0.12
EmbeddedTimelineServer 1.0
Flink支持 Cluster 0.12
NonIndex HUDI-2624
湖仓一体分析
产品介绍
:面向湖仓一体架构的Serverless数据处理分析服务,提供一站式海量数据存储计算和交互分析能力,兼容Spark、Presto、Flink生态。
行动号召
:扫码进入官网了解产品,加入官方交流群,扫码关注并回复【招聘】了解岗位信息。
你可能感兴趣
字节跳动数据平台的实践与演进 - 罗旋
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
3-4 字节跳动全域数据集成演进历程 - 李畅
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15
1-4 字节跳动基于 Doris 的数据湖仓探索
信息技术
DataFunSummit2022:多维分析架构峰会
2022-07-19
2-2 字节跳动 LAS 数据湖存储内核揭秘
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
1-3 张威-字节跳动自研万亿级图数据库架构演进
信息技术
2023 Gdevops全球敏捷运维峰会
2023-07-30