行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

4-6 Apache Iceberg 在小红书的探索与实践

文化传媒 2022-07-19 DataFunSummit2022：大数据存储架构峰会晓燚

APACHE ICEBERG在小红书的探索实践

日志数据入湖

数据平台概览：小红书数据平台面临日志数据入湖的挑战，包括动态分区流量极不均匀、KeyBy数据倾斜、小文件多、Distcp延迟以及下游读性能差等问题。
Iceberg合并小文件方案：
- 异步合并：适用于下游ETL任务已触发的场景，但存在跨云读写IO和OOM风险。
- 同步合并：通过EvenPartitionShuffle类解决小文件问题，单commit减少100+倍，Writer Operator内存减少1倍，但引入Shuffle并存在流量动态变化的缺点。
Cloud Native Table：利用Iceberg的Cloud Native Table功能优化数据存储和管理。
S3FileIO优化：通过优化S3 Client、使用Apache HttpClient、设置S3 API Call Timeout、Credential Provider、MPU Threshold和ResetException等策略提升性能。
下游集成：生产环境落地后，单作业吞吐达到GB/s级，数据就绪时间约5分钟，下游读耗时减少30%~50%。

CDC实时入湖

MySQL全量入仓与CDC增量入仓：结合全量和增量数据入仓策略，确保数据完整性。
Exactly once保证：通过Binlog、At least once机制、MQ producer主键Hash分桶、Flink Shuffle key设计以及Iceberg sink upsert模式，确保同一主键binlog的有序性。
MoR（Merge on Read）：优化读取性能。
Deduper：去重机制。
Hidden Partition：隐藏分区优化。
Auto Schema Evolution*：自动模式演化。
实时湖分析功能：支持Binlog格式、Canal PB、Ignore-update-before、Progressive Compaction*、TimeTravel*: FOR SYSTEM_TIME AS OF ${history_time}、Soft delete等功能。

实时湖分析

实时分析链路：构建流批一体的存储和分析链路。
Iceberg外表 - IcebergMergeTree：利用IcebergMergeTree优化外表性能。

未来规划

存储：CloudNative FileIO。
计算：多引擎集成、Data Skipping。
管理：产品化（DLF+ DLA）、智能化。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

祝佳俊-Apache Iceberg 在网易严选批流一体的实践

商贸零售

DataFunSummit2022：大数据计算架构峰会2022-05-19

hot

SLO在小红书的探索与实践 - 韩奇祺

商贸零售

XOps 风向标！GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21

hot

Apache Flink 在AI时代的探索与发展

商贸零售

宋辛童2025-08-16

hot

5-4 Apache Spark 在自助分析系统的应用实践与优化

商贸零售

DataFunSummit2022：现代数据栈技术峰会2022-11-02

hot

数据湖 Iceberg 在小米的落地及实践

商贸零售

小米2022-07-11