您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[白鲸开源]:利用Apache SeaTunnel对接160种数据库批流加载到Apache Doris - 发现报告

利用Apache SeaTunnel对接160种数据库批流加载到Apache Doris

信息技术2024-04-25郭炜白鲸开源陈***
AI智能总结
查看更多
利用Apache  SeaTunnel对接160种数据库批流加载到Apache Doris

郭炜白鲸开源CEO 目录 1.ApacheSeaTunnel介绍2.SeaTunnel+Doris快速搭建批流一体数据仓库3.ApacheSeaTunnel未来Roadmap介绍 ApacheSeaTunnel介绍 160+数据源批流一体的数据集成工具 ApacheSeaTunnel:新一代实时多源数据同步工具——大数据高速公路GithubStar:8.1k ApacheSeaTunnel典型案例 跨云数据准备 异构数据实时数据同步 JPMorgan&Chase 美国最大商业银行 超大型客户 解决多数据源数据每日出入数据库以及每日出入仓同步数据问题,数据集群规模30+台,日均记录数量级上千亿,日均数据量在100TB以上。 解决多云异构环境下,需要异构数据打通,将AWSAruora,DynamoDB,SFTP数据实时同步到ES,S3,Snowflake下 相关资源 官网:https://seatunnel.apache.org GitHub:https://github.com/apache/incubator-seatunnel Slack:https://apacheseatunnel.slack.com X.com:https://x.com/ASFSeaTunnel B站:https://space.bilibili.com/1542095008 SeaTunnel+Doris快速搭建批流一体数据仓库 全面取代Lambda架构的批流一体 ApacheDoris+ApacheSeaTunnel全面淘汰Lambda架构 传统Lambda痛点 •流用于实时数据,由于数据物化SQL和数据源一样,数据不会存在差异•批数据和以前一样,只对需要实时数据进行物化即可 汇总层,批量运行: •批量数据复杂处理运行效率更高•数据量比较大,大宽表支持上层业务•调度支持批量运行与跨层次依赖 原子层,批量运行: •批量数据复杂处理运行效率更高•模型设计更加规范•调度支持“流停批跑,批停流跑” 贴源层,实时接入: •历史数据+实时数据一个任务自动切换处理•单任务支持多表/加表/多连接•自动DDL变更(WhaleTunnel) 实时数仓的最佳组合:Doris(SelectDB)xSeaTunnel(WhaleTunnel) 使用Doris+SeaTunnel可以实现多种数据源的实时获取,一读多写的模式实时写入仓库,也可以进入数据湖,通过Doris外表模式加载实现实时指标层场景。 Doris(SelectDB)xSeaTunnel(WhaleTunnel)xDolphinScheduler(WhaleScheduler) ApacheSeaTunnel未来Roadmap介绍 大模型+易用性+可监测性加强 ApacheSeaTunnel未来Roadmap介绍 连接器丰富 •支持更多向量数据库•… 更快、更好用 作为一个数据集成平台,SeaTunnel将不断专注于解决数据集成领域的需求和问题。持续从数据源的数量、数据同步的性能和易用性上满足用户的需求。 支持多表Source+SinkSeaTunnelWeb的开发 CDC支持DDL变更流速控制 ApacheSeaTunnel对向量和大模型的支持 基于ApacheSeaTunnel的商业版:WhaleTunnel •简单易用,开箱即用,不依赖HDFS,Flink,Spark集群•全可视化操作,支持可视化运维与监控配置•支持信创,目前支持198种数据源•整库同步、表结构自动变更•与WhaleScheduler全面集成,完成传参和编排工作•根据调度日历、数据日期(牌)等参数进行传递和上下游触发 白鲸开源-DolphinScheduler&SeaTunnel核心开发者打造的WhaleStudio 其他客户案例 其他案例 商业案例 中国人寿是中国前三大保险公司之一。WhaleStudio在8台服务器上运行了超过100万个SQL任务。超过20个部门和36家子公司正在使用WhaleStudio开发大数据作业,提高整体开发效率。 中国银行是中国前三大银行之一在WhaleStudio上开发了超过10,000个大数据任务整合了10个系统和数据库(包括Oracle、Informix、MySQL等) 中信建投是中国前三大券商之一。 WhaleStudio满足用户数据一体化编辑、上线、数据管控、复杂时间管理等需求,充分提高中信建投数据研发效率。平台应用于公司反洗钱、实时盈亏计算、监管报送、数据精算等多个核心应用,累计编排定义工作流超过3000个,上线任务数量接近16000个,交易日平均运行工作流实例数量超过5000个,日均任务执行任务数量超过20000个。目前公司各业务线数据处理任务还在持续上线DataOps平台,整个平台规模还在持续增长中 AWS客户 WhaleStudio帮助用户快速从AWS数据库、Oracle数据库和ERP系统收集数据,并将其加载到AWSRedshift的ODS层。然后,使用WhaleStudio进行SQL开发和调试,他们可以完成汇总层和整个数据仓库的开发。 WhaleOps公司是AWS的重要技术合作伙伴。用户可以在AWSMarketplace上一键购买和部署与WhaleStudio相关的服务。用户也可以在自己的数据中心部署WhaleStudio,实现混合云和多云部署。 谢谢观看 THANKYOU! 扫码加入Apache SeaTunnel社群