您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据湖架构峰会]:Celeborn社区支持Flink最新进展 - 发现报告

Celeborn社区支持Flink最新进展

AI智能总结
查看更多
Celeborn社区支持Flink最新进展

熊佳树 阿里云-数据湖构建与分析 Outline •基本架构•概念统一与设计•Shuffle生命周期管理•网络/读写•读写性能优化•容错与流控设计•开发进展•未来规划 01-基本架构 Shuffle概念设计 MapPartition&ReducePartition •ReducePartition•PushShuffle+Partition数据聚合 •MapPartition •受限Flink场景及目前Shuffle接口必须实现•部分场景具备优势 FlinkShuffle 协议支持-Result Partition Map Partition(模式) •Map Partition区分相同Map不同attempt的结果: PartitionId (Int) = (8 AttemptId) + (24 MapId)•Reduce Partition无需区分Partition: PartitionId = ReducerID 02-基本功能 资源分配与管理 •Register Shuffle(Slot allocator)•Replica•Partition Spit/Revive/Destroy•Shuffle Result Group•Shuffle Expire•Application Expire 网络传输•控制流/数据流 数据读写•Flink Client/Map Partition reader/writer/Commit 03-关键技术 性能 •支持客户端压缩&小包合并(LZ4/ZSTD)•支持IO Scheduling•支持Broadcast优化 稳定性 •流控(Credit-based)•内存管理•Channel复用•容错 支持客户端压缩&小包合并(LZ4/ZSTD) Storage/IOscheduling Data File Region File Offset/Data lengthData 容错•效率更高 性能•效率受资源影响 Broadcast优化 MapPartition输出到不同的result Partition,下游task读取时合并 03-稳定性 •Celeborn Master(HA) •多副本机制•LifecycleManager •Credit-Based(流控) •心跳&垃圾回收机制 •资源复用 •Client•Tcp链接•FileChannel Credit-Based流控机制 04-开发进展 未来计划 •多副本支持•Split支持•网络重传•动态的内存管理•HybridFlinkShuffle支持•Mixed CelebornShuffle Type支持