登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
张静- ApacheFlink流批一体的规划和在快手的进展
信息技术
2022-05-18
DataFunSummit2022:大数据计算架构峰会
周***
AI智能总结
查看更多
流批一体的规划和在快手的进展
社区在流批一体方向的演进
为什么要做流批一体计算引擎
业务侧优势
:降低开发成本、提高数据质量、降低资源开销、降低运维成本、降低学习成本。
引擎侧优势
:一套业务代码、口径一致、避免重复计算、维护一套引擎。
Apache Flink流批一体架构
统一API
:SQL & Table API、Relational DataStream、Physical DAG、Scheduler、DAG API、Unified Source API & Sink API & Operator API、Pluggable Shuffle API。
Pipeline Region Scheduling
:以Pipelined边连接的Task集合作为基本调度单元,通过Pipeline Region Scheduler进行调度。
Adaptive Batch Scheduling
:根据已结束的producer的数据量动态确定下游并发度,无需用户手动设置批作业的并发度,自动适应数据量变化。
Pluggable Shuffle API
:支持Blocking Shuffle、External Shuffle Service、Remote Shuffle Service、Pipeline Shuffle,规划中支持Hybrid Shuffle。
快手在流批一体方向的进展
还有哪些痛点
痛点
:资源浪费、容错开销、稳定性问题(长尾节点拖慢任务)、易用性问题(手工配置并发度)。
解决方案
:Remote Shuffle Service、Speculative Execution、Adaptive Batch Scheduler。
Remote Shuffle Service
架构
:Remote Shuffle Manager、Shuffle Worker、Task Shuffle Master、JobManager。
进度
:已对接内部RemoteShuffleService,从1.13版本迁移到1.15版本,适配AdaptiveBatch Scheduler,完成全链路功能验证和数据正确性验证。
Speculative Execution
架构
:Speculative Scheduler、Slow Task Detector、BlackList Tracker、Slot Pool、Slot Manager。
Vertex
:Source和Sink支持推测执行。
进度
:核心调度层的设计和POC已完成,Source和Sink支持推测执行,从1.14版本迁移到1.15版本,适配Adaptive Batch Scheduler,完成全链路功能验证和数据正确性验证,计划贡献到社区1.16版本。
流批一体的业务实践
业务流落地
:离线特征拼接产品输出HiveServer2元数据系统智能路由组件IDPKWAIBI等。
智能引擎架构
:Hive on Flink,Flink对接离线生产智能引擎。
社区在流批一体方向的规划
Spark 和Flink在批计算方向的能力矩阵
SQL语法
:Flink规划支持Join Hints(1.16版本)、Sort by/Distributed by/Cluster by(1.16版本)、ANSI SQL Compatibility(已具备,持续优化)、HIVESQL Compatibility(已具备,规划中1.16版本)。
功能
:Flink规划支持Implicit TypeConversion(1.16版本)、Complex hash key type(1.16版本)、Adaptive Query Execution(已具备)、Dynamically set parallelism(已具备)、Dynamically coalescing shuffle partition(规划中1.16版本)、Dynamically switching join strategies(规划中1.17版本)、Dynamically optimizing skew joins(规划中1.17+版本)。
其他
:Flink规划支持Speculative Execution(1.16版本)、SQLGateway(1.16版本)、SparkThriftServer(规划中1.16版本)、OLAP(规划中1.16+版本)、Runtime Filter(规划中1.16版本)、Hybrid Shuffle(规划中1.16+版本)、Vectorized Execution(规划中,Photon仅在databricks runtime可用)。
快手在流批一体方向的未来工作
流批一体的计算
继续加强批能力建设
。
探索高效的增量计算
。
流批一体的存储
理论基础
:流表二义性(Snapshot和Log)。
不同的流批一体存储技术
:数据湖(满足近实时场景)、Streamingwarehouse(满足高时效性场景)。
流批一体的大数据架构
流批一体的大数据架构 = 流批一体的计算 + 流批一体的存储 + OLAP
。
查看更多
你可能感兴趣
1-6 郭轶轩 - 流批一体在快手的探索实践
文化传媒
2024 DAMS中国数据智能管理峰会
2024-12-06
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19
4-1 流批一体的实时多维分析
金融
DataFunSummit2022:多维分析架构峰会
2022-07-19
网易流批一体的实时数据湖实践 -周劲松
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
【财联社早知道】首次明确!国家数据局将实施“数据要素X”行动,行业有望进入加速发展期,这家公司具备六位一体的大数据核心能力;冬季呼吸道传染病高发,它研发了国内第一个获批临床的甲流病毒RNA聚合酶抑制剂
未知机构
2023-11-26