中国数据智能管理峰会 DATA&AIMANAGEMENTSUMIT 快手流批一体实践 演讲人:,郭轶轩 01 快手Flink 介绍快手Flink的规模及应用 快手Flink规模 集群规模 任务规模 AZ Flin分设客实慢障 快手Flink应用 02 流批一体架构 介绍快手及行业流批一体的思想 为什么需要流批一体 相决方素 目标 现象 1.数据产品能力提升,收实时需求2.旁实CDM资产,收口瑞标加工逻辑3.实时数仓聚构升级,获取技术红利,降低研发复杂湿4.研发规楚化及工具况 实时摄择票要渐求度同环比Kafka不享Holap的快股数提受政计算量大、任务峰值与业务峰值量量供障要求更高,需要手动造无数弱缺失,上下差不 快手流批一体的三个阶段 用户自发阶段 流批一体阶段 湖仓一体阶段 222021时, 用产白益使用F0knresirk来家少代开发三 使用Aahedi建统一的游在想将 快手开发者自发阶段 快手开发者自发阶段 总结 优点配置化开发:业弱代码扭架支配置化切换心和S 进护成本低:代码姓护相对方便,说批一查代码 不足 换定生差:抗模式,所右整按谢到状态里再计算,状态很大TB别◆阅源开的大:说校式,算子实现不是批通震下最优重试成过高,流核式,ta出往掉,整个作业重试 快手流批一体阶段 行业解决方案 lambda架构: >时效口径响应VSV构建回人致性 行业解决方案 快手流批一体阶段 快手流批一体阶段 Flink batch存在的问题 机器或网络造成的长尾问题 慢节点问题 节点异常退出导致托管的shuffle文件不可读,影响下游任务 离线集群开启资源抢占,中低优任务的资源频繁被抢占离线集群宽源紧张,导致并发之问间splits分布不均匀,fo开销大 快手流批一体阶段 传统引擎方案的挑战 工具依赖 OLAP 引草层面的谨壮染一糖将LAP引障的各神特性,燥障漆批效据可见性 Fk本身不克净talo等 共群支持 菩适性 支持的展现形式有阻,对于款提产品美因化姓度分折支持控好,别的项最本知 批任疗运性显率在较高,活或果胖非有, 湖仓一体阶段业务应用场景 米DB同步加还 米控世路加设产出 素兼鲁离据性路。无感开发 to Paimon 量PK特性加速产出 湖仓一体阶段 湖仓一体阶段 快手湖仓方案选型核心目标 湖格式选型 时效性 Hud在快千己已经有长其职富及落地,青在深场果扩充能力 需没逐原鼻张,基腰癌对有差生,清要着重快化比现状 资源复用 口径 入出任务与任然任务有天照五异,需来在 买时周装计算资弹有明显浪费 湖仓一体阶段 架构普适性端到端时效性多元化交付方式 湖仓一体阶段 实时3.0场景 湖仓一体阶段 离线加速场景 快于KafkaZHive MID&o_dete20243506 2T243905DMDE p h=17 特点 计算良额。行健原并指大 湖仓一体阶段 离线加速场景 快于Kafka2Hud i 0245696 特点 湖仓一体阶段 DWD数据精准一次方案设计-问题和思路 DWD数据精准一次方案设计-方案考量因素 DWD数据精准一次方案设计-方案对比 展望 多元化数据交付方式 多种分析场景方案归 削峰填谷均勾集群瓷源证拉满群卫合使用,量大化列用军 DAMS 中国数据智能管理峰会 DATA&AIMANAGEMENTSUMIT THANK YOU!