登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-6 Apache Iceberg 在小红书的探索与实践
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
晓燚
APACHE ICEBERG在小红书的探索实践
日志数据入湖
数据平台概览
:小红书数据平台面临日志数据入湖的挑战,包括动态分区流量极不均匀、KeyBy数据倾斜、小文件多、Distcp延迟以及下游读性能差等问题。
Iceberg合并小文件方案
:
异步合并
:适用于下游ETL任务已触发的场景,但存在跨云读写IO和OOM风险。
同步合并
:通过EvenPartitionShuffle类解决小文件问题,单commit减少100+倍,Writer Operator内存减少1倍,但引入Shuffle并存在流量动态变化的缺点。
Cloud Native Table
:利用Iceberg的Cloud Native Table功能优化数据存储和管理。
S3FileIO优化
:通过优化S3 Client、使用Apache HttpClient、设置S3 API Call Timeout、Credential Provider、MPU Threshold和ResetException等策略提升性能。
下游集成
:生产环境落地后,单作业吞吐达到GB/s级,数据就绪时间约5分钟,下游读耗时减少30%~50%。
CDC实时入湖
MySQL全量入仓与CDC增量入仓
:结合全量和增量数据入仓策略,确保数据完整性。
Exactly once保证
:通过Binlog、At least once机制、MQ producer主键Hash分桶、Flink Shuffle key设计以及Iceberg sink upsert模式,确保同一主键binlog的有序性。
MoR(Merge on Read)
:优化读取性能。
Deduper
:去重机制。
Hidden Partition
:隐藏分区优化。
Auto Schema Evolution
*:自动模式演化。
实时湖分析功能
:支持Binlog格式、Canal PB、Ignore-update-before、Progressive Compaction*、TimeTravel*: FOR SYSTEM_TIME AS OF ${history_time}、Soft delete等功能。
实时湖分析
实时分析链路
:构建流批一体的存储和分析链路。
Iceberg外表 - IcebergMergeTree
:利用IcebergMergeTree优化外表性能。
未来规划
存储
:CloudNative FileIO。
计算
:多引擎集成、Data Skipping。
管理
:产品化(DLF+ DLA)、智能化。
你可能感兴趣
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
SLO在小红书的探索与实践 - 韩奇祺
商贸零售
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站
2024-10-21
Apache Flink 在AI时代的探索与发展
商贸零售
宋辛童
2025-08-16
5-4 Apache Spark 在自助分析系统的应用实践与优化
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
数据湖 Iceberg 在小米的落地及实践
商贸零售
小米
2022-07-11