AI智能总结
2025年ApacheDolphinScheduler案例精选集 目录 序言..........................................................................................................................1案例1:奇虎360商业化ApacheDolphinScheduleronKubernetes的部署改造实践.............................................................................................................................2案例2:从数据血缘到AIAgent:天翼云×ApacheDolphinScheduler的云上调度实践..........................................................................................................................5案例3:从批到流:Zoom基于ApacheDolphinScheduler的流批统一调度系统演进.................................................................................................................................8案例4:网易邮箱ApacheDolphinScheduler迁移实战:从部署到优化的企业级调度升级之路.................................................................................................................12案例5:1天部署数十个工厂:ApacheDolphinScheduler在智能制造场景下的规模化实践....................................................................................................................17案例6:百年博世的智能驾驶调度升级:ApacheDolphinScheduler在AI数据处理中的实践.................................................................................................................20加入社区.................................................................................................................24 序言 本案例精选集汇总了2025年ApacheDolphinScheduler在多家企业的典型实践,包括奇虎360、天翼云、Zoom、网易邮箱与深圳某大型智能制造企业等。内容涵盖平台部署、容器化改造、任务迁移、流批统一调度、二次开发优化、资源隔离及数据集成等全流程应用场景,展示了企业在大规模数据调度与治理中的落地经验与技术探索。 精选集旨在为企业数据团队、调度平台开发者及开源社区成员提供参考指南,帮助理解ApacheDolphinScheduler在复杂生产环境中的架构设计、性能优化及运维策略,同时展现其在智能化调度与数据治理场景中的应用潜力。 本案例集由ApacheDolphinScheduler社区(包括白鲸开源)志愿者编撰整理。 致谢 特别感谢王远朋、陆小龙、师彬杰、雷宝鑫、邱忠标的实践经验与分享。同时感谢所有ApacheDolphinScheduler社区贡献者,正是他们的代码、文档、问题解决方案与最佳实践,使得本精选集得以完整呈现,并推动了开源生态的持续发展与创新。 案例1:奇虎360商业化ApacheDolphinScheduleronKubernetes的部署改造实践 作者:王远朋奇虎360科技数据专家关键词:容器化调度镜像分层Helm运维版本治理云原生演进 ApacheDolphinScheduler已成为奇虎360商业化生产环境中最重要的调度系统之一。过去三年中,我们逐步将部分调度任务从Azkaban迁移至DolphinScheduler,并在2025年将版本升级至3.2.2,同时完成了在Kubernetes(K8s)上的阶段性部署。本文结合真实生产实践,总结迁移过程中的关键技术点与经验教训。 迁移动机 早期DolphinScheduler(3.1.9)部署在物理机环境中。随着任务规模增长,物理机在弹性扩缩容、资源隔离以及发布回滚方面逐渐暴露出不足。Kubernetes提供的容器隔离、自动扩容和声明式部署能力,更适合高并发、多任务的调度场景,因此我们选择在升级版本的同时推进K8s化改造。 镜像构建经验 迁移的第一步是镜像构建。我们采用基础镜像与模块镜像分离的方式,在基础镜像中统一集成Hadoop、Spark、Flink、Python等运行环境,再构建DolphinScheduler各模块镜像。 实践中发现,镜像阶段的问题往往影响最深:基础镜像体积过大会显著拉长构建时间;自编译jar未覆盖旧包容易引发运行异常;MySQL驱动需要正确链接到所有模块;不同模块端口和启动脚本必须保持一致。镜像构建应尽量标准化,减少不必要的定制。 部署方式选择 最初我们通过手写KubernetesYAML文件进行部署,但随着配置复杂度提升,可维护性迅速下降。随后切换至官方HelmChart,将配置集中在values.yaml中管理,显著降低了部署和升级成本。 在生产环境中,需要特别注意关闭内置MySQL和Zookeeper,统一使用外部服务;共享存储必须支持ReadWriteMany;HDFS、LDAP等配置需与集群环境严格一致。实践表明,多数部署问题都源于配置细节不一致。 运维与升级挑战 相比部署本身,长期维护更具挑战性。由于早期对源码和镜像进行了定制化修改,每次社区版本升级都需要重新对比差异、重建镜像并进行完整测试。同时,不同版本间Helm配置项的变化,也增加了升级风险和运维成本。 总结与展望 通过本次迁移,我们逐渐形成共识:在Kubernetes环境中应优先遵循社区标准,尽量减少定制化。后续将逐步采用官方镜像,引入CI/CD流程,并结合Prometheus与Grafana构建可观测体系。 总体而言,Kubernetes显著提升了DolphinScheduler的弹性、扩展性和环境一致性,为构建高可用、低运维成本的调度平台奠定了基础。 完整案例:https://mp.weixin.qq.com/s/RTSmR0ZMoXTa4z1oSGuCEg 案例2:从数据血缘到AIAgent:天翼云×ApacheDolphinScheduler的云上调度实践 作者:陆小龙天翼云研发专家,ApacheLinkisCommitter,ApacheDolphinSchedulerContributor 关键词:云上调度数据血缘社区共建二次开发AgenticAI 背景与挑战 在数据驱动与智能化持续深化的背景下,数据调度平台正从单纯的任务编排工具,演进为连接数据、算力与业务智能的关键基础设施。天翼云围绕其大数据计算平台“翼MR”,在云上承载了大量复杂的数据处理与分析任务,对调度系统的稳定性、扩展性与演进能力提出了更高要求。 随着业务规模不断扩大,调度层逐渐面临多方面挑战:多种计算引擎并存,环境配置与任务管理复杂;调度与数据处理过程缺乏统一的数据血缘视角,难以支撑数据治理、审计与影响分析;第三方任务系统接入成本高,难以形成统一调度入口;同时,在AI技术快速发展的背景下,传统主要面向“人”的调度方式,也逐渐难以满足智能化发展的需求。 ApacheDolphinScheduler解决方案 针对上述挑战,天翼云选择ApacheDolphinScheduler作为统一调度引擎,并与翼MR平台进行了深度集成。通过对Hive、Spark、Flink等大数据组件的自动化集成,用户在DolphinScheduler中即可完成任务调度,无需重复进行环境准备与配置。 在生产实践中,天翼云团队基于DolphinScheduler进行了多项能力增强:通过结果集标准化降低资源消耗、提升执行效率;构建全链路数据血缘追踪体系,结合多种SQL血缘解析引擎,将调度过程中的数据流转关系沉淀至元数据中心;同 时支持第三方任务系统的统一注册与OpenAPI调度,使DolphinScheduler成为跨平台、跨系统的调度中枢。 在此过程中,团队成员也持续参与ApacheDolphinScheduler社区建设,通过代码贡献、问题反馈与方案共建,将一线生产经验反哺社区,推动项目持续演进。 公司收益与价值体现 基于ApacheDolphinScheduler构建的云上调度体系,为天翼云带来了显著收益:调度平台的稳定性与可维护性持续提升,运维与接入成本明显降低;数据血缘能力增强了数据治理、审计与影响分析能力;统一调度入口提升了平台的整体扩展性与服务能力,为云上客户提供了更加一致、可靠的大数据使用体验。 面向AI时代的展望 随着AgenticAI的发展,调度平台的使用者将不再局限于人类开发者。依托ApacheDolphinScheduler在多引擎整合与流程编排方面的优势,将其演进为AI工作流中的统一调度入口,具备现实可行性。围绕大模型能力与MCP等方向的探索,也正在社区中逐步推进。 完整案例:https://mp.weixin.qq.com/s/Gj3Hcl_ddCk7WeHUs67_tw 案例3:从批到流:Zoom基于ApacheDolphinScheduler的流批统一调度系统演进 作者:师彬杰Zoom数据平台工程师 关键词:流批一体调度Kubernetes状态机机制云原生数据平台 背景与挑战 随着业务规模持续扩大,Zoom数据平台的数据形态从以批处理为主,逐步演进为批处理与流处理并行发展的混合模式。早期,平台主要通过ApacheDolphinScheduler调度SparkSQL批处理任务,运行在AWSEMR等云服务之上,整体架构相对简单且稳定。 然而,实时业务需求的快速增长带来了新的挑战:FlinkSQL、SparkStructuredStreaming等流式计算任务大量引入,这类任务通常需要长时间运行、持续监控状态并具备异常恢复能力。传统“提交即结束”的调度方式,难以满足流任务对状态管理、重复提交防护、统一监控与运维的要求。如何让流任务像批任务一样被调度、被追踪、被治理,成为Zoom在调度体系演进中的核心问题。 ApacheDolphinScheduler解决方案 为解决上述挑战,Zoom团队基于ApacheDolphinScheduler的任务状态机能力,对流任务的调度模型进行了系统性改造,设计并落地了“提交+状态追踪”的双阶段任务模型。 在该模型中,流任务首先通过SubmitTask提交至Yarn或Kubernetes集群,提交成功即进入运行状态;随后由TrackStatusTask持续追踪任务在集群中的真实运行状态,并将结果同步回DolphinScheduler的元数据体系。通过这种方式,流任务被完整纳入DolphinScheduler的工作流、任务实例与日志体系中,实现了与批处理任务一致的调度与管理方式。 在基础架构层面,Zoom进一步将Spark与Flink任务迁移至Kubernetes,通过