登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
徐榜江 (雪尽) - FlinkCDC如何加速海量数据的实时集成
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
木子学长v3.5
FlinkCDC技术如何加速海量数据的实时集成
FlinkCDC技术概述
CDC技术定义
:广义上指捕获数据变更的技术,主要面向数据库变更,应用场景包括数据同步、数据采集、数据集成和数据分发。
CDC技术分类
:分为基于查询的CDC(如Sqoop、Kettle)和基于日志的CDC(如Debezium、Canal),前者为离线批处理,后者为实时流式处理。
常见开源CDC方案对比
:Debezium、DataX、Canal、Sqoop、Kettle、Oracle GoldenGate等方案在架构、性能、一致性、扩展性等方面各有差异。
FlinkCDC技术特点
FlinkCDC优势
:采用增量快照读取算法,支持单并发失败重做、无锁算法、并发读取和断点续传,实现全增量一体化框架。
性能提升
:TPC-DS测试显示,FlinkCDC在6500万customer单表数据量下,吞吐提升6.8倍,达到分钟级别产出。
存储友好设计
:采用存储友好的写入设计,支持分钟级别产出,不影响业务稳定性。
入湖架构
:支持TiDB、ClickHouse、Iceberg、Hudi等数据源,实现全量+增量一体化同步。
Transformation能力
:支持清洗、聚合、JOIN、UDTF等复杂ETL加工,实现实时数据处理。
异构数据源集成
:支持多种数据库和数据仓库的集成,包括MySQL、PostgreSQL、Oracle、MongoDB等。
分库分表支持
:支持分库分表的集成,满足复杂数据架构需求。
Flink生态整合
:深度整合Flink生态,提供丰富的功能和工具支持。
海量数据集成的痛点
传统数据入仓架构1.0痛点
:DataX/Sqoop全量同步影响业务稳定性,性能瓶颈明显。
传统数据入仓架构2.0痛点
:Hive链路长,组件多,小时级别产出,延迟高,链路割裂,可维护性差。
传统CDCETL分析痛点
:单并发性能差,全量增量割裂,依赖组件多,如消息队列、中间件集群等。
开源社区发展
社区发版历程
:从1.X到2.2版本,逐步支持MySQL最新位点消费、PostgreSQL WAL文件清理、标准metric、OracleCDC连接器、MongoDBCDC连接器等。
社区文档和教程
:提供丰富的社区文档、FAQ手册和教程,支持MySQL百亿级超大表、全部类型等。
GitHub活动
:GitHub Star年度300%增长,社区活跃度高。
社群发展
:2021年7月建立FlinkCDC社区群,2022年4月已有4600+开发者和用户。
你可能感兴趣
3-2 深入解读 Flink CDC 增量快照框架 - 徐榜江(雪尽)
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15
【财联社早知道】英伟达联手Zilliz发布全球首个GPU加速向量数据库,将助力AI大模型的发展,这家公司与英特尔联合发布AIGC向量数据库解决方案,能够实现海量向量数据的高实时性查询、检索、召回等功能-20240323
商贸零售
未知机构
2024-03-23
2022年房地产金融专题研究-寒江尽渡去,春风徐徐来
商贸零售
58安居客房产研究院
2023-01-15
Ernest'何世友- Serverless ETL:面向百亿市场规模的实时数据集成方案演进之路
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
3-1 Apache InLong 一站式海量数据集成框架原理和实践
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19