01 什么是数据流
数据流是指数据从输入到输出端的流动,实践中也称为数据集成,涉及帮助企业使用、整合和利用各种数据的实践、工具和架构程序。数据集成不仅整合不同系统的数据,还确保数据干净、准确,优化其对业务的价值。
02 现代数据流趋势
- 数据引领发展:传统企业向数据驱动转型,数据成为产品,组织与数据关系变革,推动数据民主化、数据流正式化和模型简化(从强耦合到声明式、低代码)。
- 业务变革:从ETL(分散化、中高成本、低实时要求)转向ELT(统一化、业务团队处理、高实时要求、中高成本)。
- 转向数据:关注数据本身价值,分离复杂耦合架构,重视数据服务,正规化工具,改变数据分配方式,明确数据责任分配,实现数据共享重用。
03 现代数据流特性总结
- Apache Flink:作为实时计算事实标准,支持流批分析、数据管道&ETL、正确性保证、事件驱动应用,具备分层API(SQL on Stream & Batch)、DataStream API & DataSet API、ProcessFunction(Time & State)、运维增强、灵活部署、高可用、保存点、大规模计算水平扩展。
- 阿里云解决方案:
- StreamSQL:面向数据分析,分析师无需学习即可完成业务代码,屏蔽底层复杂一致性细节,提供Exactly-once处理语义,内置优化算法,集成大量函数、算子,支持UDF接口。
- 企业级Connector:涵盖阿里云产品/开源社区40+主流引擎,支持模拟数据生成、监控告警、完善文档,快速推出新场景的connector。
- SQL代码模板:提供21种代码模板,覆盖常见场景,帮助用户快速上手。
- Serverless化集群:支持3万+作业、90+峰值、40亿记录/秒,150万+CPU计算能力,帮助阿里巴巴实现业务全链路实时化。
- Autopilot:自动生成和调优作业资源配置,优化资源使用,实现按需使用。
- 治理能力:支持元数据管理(数据血缘、数据观察)、SQL调试、可观测性(作业DAG图、日志查看)、Hive Metastore、Hologres Catalog、MySQL Catalog、DLF Catalog。
04 现代数据流最佳实践
- 入湖入仓痛点与FlinkCDC解决方案:
- 痛点:全量和增量两套架构、Schema变更难以维护、整库开发工作量大、ETL清洗难度大、资源费用过高。
- 解决方案:全量和增量自动切换、表结构变更自动同步、整库同步只需一条SQL、双流JOIN等易实现数据打宽和业务逻辑加工、性能无限制。
- 实时计算Flink实时入仓解决方案(Flink+Hologres):
- 特性:CTAS/CDAS、宽表Merge和局部更新、流式语义(insertorignore/insertorreplace/insertorupdate)、分区表支持、攒批写入、连接池数量自定义、Hologres Binlog消费支持、FlinkCatalog支持。
- 实时计算Flink实时入湖解决方案(Hudi/Iceberg):
- 特性:Hudi/Iceberg源表支持(全量和增量拉取、全量源表结果表支持)、CDC结果表支持(Hudi/Iceberg)、DLF Catalog支持、Hive Catalog支持、Changelog模式支持、批量导入支持。