登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
百万级任务调度系统实践_陈奉刚
信息技术
2022-07-19
ArchSummit深圳2022|全球架构师峰会
LIHUYUN
兴盛优选任务调度系统实践总结
任务调度的背景&系统挑战
兴盛优选任务调度系统的设计背景
业务发展导致任务数量激增,原有调度系统出现延时和卡死,需重新规划。
需统一管控公司大数据任务(离线、实时)、数据权限和Yarn队列资源。
需解决流批依赖关系,如销售预测场景中基于实时数据推测离线任务触发时间。
系统目标和挑战
高并发能力
:提升并发能力,保障所有任务正确调度。
流程准确性
:简化任务孵化到执行流程,保障准确准时调度。
资源保障
:解决资源不足问题,保障高优业务调度。
并发调度挑战
:Master处理能力、线程分配、资源隔离、精准调度。
故障处理挑战
:集群稳定性、节点故障、版本迭代、幂等性保障。
易用性挑战
:多类型任务支持、图形化编排、API集成、流批统一管理。
开源任务调度系统分析
Elastic-job
:可视化操作,分布式架构,流批统一,但UI界面功能有限。
Airflow
:订阅式调度,适合可编程任务,但无API接口,无法流批统一管理。
Azkaban
:DAG依赖支持,但无DAG间依赖和配置化调度。
DolphinScheduler
:优势在于可视化操作、流批统一、高并发调度、故障处理,故选择自研基于DolphinScheduler。
分布式任务调度系统的实践
整体设计
核心模块
:Master(任务调度、故障处理)、Worker(任务执行)、算子(任务抽象)。
其他模块
:调试、日志、告警、版本管理、资源权限管理。
并发增强
任务孵化和执行分离
:Master仅负责流程控制,Worker负责任务执行,简化Master职责。
Worker优化
:Local/Remote任务分类,Remote任务状态由远程服务托管,提升并发能力60倍。
引入Kafka和MySQL
:利用Kafka缓存任务状态,MySQL防止僵死,回调机制减少扫描频率。
调度准时性增强
预孵调度器
:提前分发任务,减少Master处理和数据库扫描,降低调度延时。
时间转盘
:消除多余时间,实现准时触发。
优雅故障处理
主Master机制
:多个Master争抢故障处理,主Master专门处理故障。
故障恢复流程
:Master故障恢复只需恢复Workflow实例,Worker故障重新随机发送任务。
算子优化
多种类型任务算子
:支持SparkSQL、FlinkSQL、Hive、Hudi、MySQL分库分表数据汇聚,分区探测算子连接实时和离线任务。
未来规划
基于DAG血缘的任务串联恢复
通过DAG血缘关系实现部分任务重跑,依赖点未达时间则等待DAG自行触发。
基于异步回调进一步性能提升
Local任务容器化运行,更多算子任务状态采用回调方式,提升稳定性和性能。
基于k8s实现Worker节点的弹性伸缩
根据任务积压情况自适应伸缩Worker节点,镜像存储在同机房集群节点,缩短启动时间。
你可能感兴趣
消费金融行业大数据平台任务调度系统设计与实践_胡东森
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19
3-5 数帆数据中台大数据任务调度系统的实践
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
01-金融级系统海量流量下的高可用架构实践-康杨
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
空天地一体化网络中无人机智能任务调度算法研究
商贸零售
中国知网
2024-11-17
面向电算融合的任务调度技术初探
商贸零售
计算机软件新技术全国重点实验室&南京大学计算机学院
2025-12-08