登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
4-6 Apache Iceberg 在小红书的探索与实践
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
晓***
AI智能总结
查看更多
APACHE ICEBERG在小红书的探索实践
日志数据入湖
数据平台概览
:小红书数据平台面临日志数据入湖的挑战,包括动态分区流量极不均匀、KeyBy数据倾斜、小文件多、Distcp延迟以及下游读性能差等问题。
Iceberg合并小文件方案
:
异步合并
:适用于下游ETL任务已触发的场景,但存在跨云读写IO和OOM风险。
同步合并
:通过EvenPartitionShuffle类解决小文件问题,单commit减少100+倍,Writer Operator内存减少1倍,但引入Shuffle并存在流量动态变化的缺点。
Cloud Native Table
:利用Iceberg的Cloud Native Table功能优化数据存储和管理。
S3FileIO优化
:通过优化S3 Client、使用Apache HttpClient、设置S3 API Call Timeout、Credential Provider、MPU Threshold和ResetException等策略提升性能。
下游集成
:生产环境落地后,单作业吞吐达到GB/s级,数据就绪时间约5分钟,下游读耗时减少30%~50%。
CDC实时入湖
MySQL全量入仓与CDC增量入仓
:结合全量和增量数据入仓策略,确保数据完整性。
Exactly once保证
:通过Binlog、At least once机制、MQ producer主键Hash分桶、Flink Shuffle key设计以及Iceberg sink upsert模式,确保同一主键binlog的有序性。
MoR(Merge on Read)
:优化读取性能。
Deduper
:去重机制。
Hidden Partition
:隐藏分区优化。
Auto Schema Evolution
*:自动模式演化。
实时湖分析功能
:支持Binlog格式、Canal PB、Ignore-update-before、Progressive Compaction*、TimeTravel*: FOR SYSTEM_TIME AS OF ${history_time}、Soft delete等功能。
实时湖分析
实时分析链路
:构建流批一体的存储和分析链路。
Iceberg外表 - IcebergMergeTree
:利用IcebergMergeTree优化外表性能。
未来规划
存储
:CloudNative FileIO。
计算
:多引擎集成、Data Skipping。
管理
:产品化(DLF+ DLA)、智能化。
你可能感兴趣
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19
SLO在小红书的探索与实践 - 韩奇祺
文化传媒
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站
2024-10-21
Apache Flink 在AI时代的探索与发展
信息技术
宋辛童
2025-08-16
5-4 Apache Spark 在自助分析系统的应用实践与优化
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
数据湖 Iceberg 在小米的落地及实践
小米
2022-07-11