登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
张静- ApacheFlink流批一体的规划和在快手的进展
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
周剑
流批一体的规划和在快手的进展
社区在流批一体方向的演进
为什么要做流批一体计算引擎
业务侧优势
:降低开发成本、提高数据质量、降低资源开销、降低运维成本、降低学习成本。
引擎侧优势
:一套业务代码、口径一致、避免重复计算、维护一套引擎。
Apache Flink流批一体架构
统一API
:SQL & Table API、Relational DataStream、Physical DAG、Scheduler、DAG API、Unified Source API & Sink API & Operator API、Pluggable Shuffle API。
Pipeline Region Scheduling
:以Pipelined边连接的Task集合作为基本调度单元,通过Pipeline Region Scheduler进行调度。
Adaptive Batch Scheduling
:根据已结束的producer的数据量动态确定下游并发度,无需用户手动设置批作业的并发度,自动适应数据量变化。
Pluggable Shuffle API
:支持Blocking Shuffle、External Shuffle Service、Remote Shuffle Service、Pipeline Shuffle,规划中支持Hybrid Shuffle。
快手在流批一体方向的进展
还有哪些痛点
痛点
:资源浪费、容错开销、稳定性问题(长尾节点拖慢任务)、易用性问题(手工配置并发度)。
解决方案
:Remote Shuffle Service、Speculative Execution、Adaptive Batch Scheduler。
Remote Shuffle Service
架构
:Remote Shuffle Manager、Shuffle Worker、Task Shuffle Master、JobManager。
进度
:已对接内部RemoteShuffleService,从1.13版本迁移到1.15版本,适配AdaptiveBatch Scheduler,完成全链路功能验证和数据正确性验证。
Speculative Execution
架构
:Speculative Scheduler、Slow Task Detector、BlackList Tracker、Slot Pool、Slot Manager。
Vertex
:Source和Sink支持推测执行。
进度
:核心调度层的设计和POC已完成,Source和Sink支持推测执行,从1.14版本迁移到1.15版本,适配Adaptive Batch Scheduler,完成全链路功能验证和数据正确性验证,计划贡献到社区1.16版本。
流批一体的业务实践
业务流落地
:离线特征拼接产品输出HiveServer2元数据系统智能路由组件IDPKWAIBI等。
智能引擎架构
:Hive on Flink,Flink对接离线生产智能引擎。
社区在流批一体方向的规划
Spark 和Flink在批计算方向的能力矩阵
SQL语法
:Flink规划支持Join Hints(1.16版本)、Sort by/Distributed by/Cluster by(1.16版本)、ANSI SQL Compatibility(已具备,持续优化)、HIVESQL Compatibility(已具备,规划中1.16版本)。
功能
:Flink规划支持Implicit TypeConversion(1.16版本)、Complex hash key type(1.16版本)、Adaptive Query Execution(已具备)、Dynamically set parallelism(已具备)、Dynamically coalescing shuffle partition(规划中1.16版本)、Dynamically switching join strategies(规划中1.17版本)、Dynamically optimizing skew joins(规划中1.17+版本)。
其他
:Flink规划支持Speculative Execution(1.16版本)、SQLGateway(1.16版本)、SparkThriftServer(规划中1.16版本)、OLAP(规划中1.16+版本)、Runtime Filter(规划中1.16版本)、Hybrid Shuffle(规划中1.16+版本)、Vectorized Execution(规划中,Photon仅在databricks runtime可用)。
快手在流批一体方向的未来工作
流批一体的计算
继续加强批能力建设
。
探索高效的增量计算
。
流批一体的存储
理论基础
:流表二义性(Snapshot和Log)。
不同的流批一体存储技术
:数据湖(满足近实时场景)、Streamingwarehouse(满足高时效性场景)。
流批一体的大数据架构
流批一体的大数据架构 = 流批一体的计算 + 流批一体的存储 + OLAP
。
你可能感兴趣
1-6 郭轶轩 - 流批一体在快手的探索实践
商贸零售
2024 DAMS中国数据智能管理峰会
2024-12-06
4-1 流批一体的实时多维分析
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-19
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
【财联社早知道】首次明确!国家数据局将实施“数据要素X”行动,行业有望进入加速发展期,这家公司具备六位一体的大数据核心能力;冬季呼吸道传染病高发,它研发了国内第一个获批临床的甲流病毒RNA聚合酶抑制剂
商贸零售
未知机构
2023-11-26
网易流批一体的实时数据湖实践 -周劲松
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02