行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

3-1 字节跳动数据湖索引演进

信息技术 2022-07-18 DataFunSummit2022：多维分析架构峰会 M.凯

字节跳动数据湖索引演进

Hudi索引介绍

传统数仓数据更新方式：增量Join全量->覆盖历史分区，涉及读/更新全部文件及全局Join。
Hudi索引作用：通过快速定位对应FileGroup，避免读取/更新不必要文件，将全局Join转为Local Join。
Hudi索引类型：未详细展开，但提及BucketIndex和NonIndex两种主要类型。

问题与挑战

数据入湖场景：实时Upsert及小时/天级批量BackFill(Upsert)。
具体挑战：单分区包含40000个FileGroup，30TB数据量，5千亿条记录，Bloom Filter性能差导致入湖速度慢。

字节数据湖索引演进

BucketIndex

基本原理：基于哈希的索引，提供Key<->BucketId<->FileGroupId的映射关系。
写入流程：未详细描述，但强调其索引机制。
分区级Bucket：支持按分区分桶。
查询优化：
- Case1：表T1/2按A列分桶，AB列(超集)Join。
- Case2：表T1按A列分桶，A列Join。
- Coalesce：分桶数与Shuffle并行度成倍数关系，分桶数< Shuffle并行度。
- MultipleInputRead：分桶数与Shuffle并行度成倍数关系，分桶数> Shuffle并行度。
- BucketPruning：点查列==分桶列时，查全部文件转为查单个文件。
可扩展性问题：BucketIndex可扩展性差。
ExtensibleBucketIndex：
- 基础原理：未详细描述，但强调其可扩展性改进。
- 公司logo：提及公司标识。

NonIndex

非主键入湖特点：UUID -> No Index，Upsert-> Insert / Append。
现有索引体系问题：必须Locate+数据重新分布。
公司logo：提及公司标识。

未来规划

二级索引：
- 目标：提升非主键列点查性能。
- 方法：基于二级索引列构造BloomFilter+Multi-Modal Index，支持初始索引异步构建及事务更新。
RangeIndex：
- 目标：提升点查/范围查询性能。
社区工作：
- BucketIndex 0.11
- HudiMetastore 0.12/1.0
- Table Management Service 0.12/1.0
- DecoupleAvro 0.12
- EmbeddedTimelineServer 1.0
- Flink支持 Cluster 0.12
- NonIndex HUDI-2624

湖仓一体分析

产品介绍：面向湖仓一体架构的Serverless数据处理分析服务，提供一站式海量数据存储计算和交互分析能力，兼容Spark、Presto、Flink生态。
行动号召：扫码进入官网了解产品，加入官方交流群，扫码关注并回复【招聘】了解岗位信息。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

字节跳动数据平台的实践与演进 - 罗旋

商贸零售

ArchSummit北京2022|全球架构师峰会2022-11-02

hot

3-4 字节跳动全域数据集成演进历程 - 李畅

商贸零售

DataFunSummit2022：数据治理在线峰会2022-09-15

hot

1-4 字节跳动基于 Doris 的数据湖仓探索

商贸零售

DataFunSummit2022：多维分析架构峰会2022-07-19

hot

2-2 字节跳动 LAS 数据湖存储内核揭秘

商贸零售

DataFunSummit2022：现代数据栈技术峰会2022-11-02

hot

1-3 张威-字节跳动自研万亿级图数据库架构演进

商贸零售

2023 Gdevops全球敏捷运维峰会2023-07-30