行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

邱从贤-Flink 作业的稳定性优化实践

电子设备 2022-05-19 DataFunSummit2022：大数据计算架构峰会 caddie💞

Flink作业的稳定性优化实践总结

Flink在腾讯的应用

腾讯的Oceanus平台作为实时计算核心，支撑营销分析、运营监控、产品改进等业务场景，实现从BI到CI的转型。平台整合消息队列、实时用户行为、离线存储、推理服务等资源，通过Flink与Yarn、HDFS、ZooKeeper等系统协同工作。

Flink的稳定性介绍

Flink作业稳定性受多方面因素影响，包括第三方系统（Yarn、Container资源、HDFS存储量/访问量、ZooKeeper连接数）以及Flink自身因素（控制链路、Master-Worker通信、Checkpoint流程、数据热点、反压机制、FlinkBug、用户逻辑异常）。

稳定性优化实践

减少故障优化

ZooKeeper HA协议优化：
- 通过HA协议提升Master高可用性，优化前Master故障会导致全作业中断，优化后可快速恢复。
- 多计算集群共用ZooKeeper集群可减少连接数，从1000连接降至2615（示例数据）。
Checkpoint优化：
- 小文件合并减少Checkpoint数据传输压力，提升稳定性。

降低影响

Master Failover优化：
- 实现空间上单点重启，保障大部分数据处理有效。
- 时间上作业启动加速：故障恢复时间从201s减少至48s（并发度4691）。
- 解决网络传输挑战：
  - 清理残留数据：通过Task状态管理实现网络管道重置。
  - 应对反压机制：优化网络重置流程避免Task响应延迟。
作业启动加速：
- 优化RPC请求、合并Jar包、增加备份Container，解决Yarn瓶颈。

快速发现&恢复

从Reactive到Proactive：
- 传统告警依赖人工处理，耗时耗力。
- 新系统通过Node丢失、OOM、心跳超时等自动诊断机制快速感知问题。

总结&展望

总结

稳定性提升策略：
- 减少故障：ZooKeeper HA、Checkpoint优化。
- 降低影响：Master Failover、作业启动加速。
- 快速恢复：自动诊断系统、快速故障感知。

展望

进一步优化方向：
- 实现无损单点重启替代有损重启。
- 大状态快速恢复机制。
- 更智能的自动诊断与恢复系统。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

张海瑞 -基于 Flink 的实时计算平台在新能源充电行业实践

商贸零售

DataFunSummit2022：大数据计算架构峰会2022-05-19

hot

Flink CEP 在实时风控场景的落地与优化

商贸零售

DataFunSummit2023：智能风控峰会2023-08-09

hot

人工智能行业2023AIGC应用与实践展望报告：人工智能重塑内容产业的作业模式

商贸零售

甲子光年2023-04-06

hot

CCS 注入作业最佳实践地质力学原则及其在 Carbonnet 项目中的应用

商贸零售

全球碳捕集与封存研究院2017-10-27

hot

石油和天然气作业中的水管理：发展中国家的行业实践和政策指南

商贸零售

世界银行2024-02-01