核心观点与关键数据
本文探讨了现代数据分析架构的发展趋势与挑战,重点围绕三大主题展开:统一的基础设施、统一的中间层和统一的数据资产。
1. 统一的基础设施
- 技术演进:从1990年代的数据仓库到近20年的数据湖体系,技术经历了从HDFS和对象存储到Spark、Flink等流批一体化计算引擎的演进。Parquet、HMS、YARN/K8s等存储计算技术以及Impala、SparkSQL、Presto等SQL引擎成为核心。
- 核心组件:新一代的Parquet+HMS(如Iceberg、Arctic)成为核心,提供ACID、Time Travel、Schema演化等特性,并通过表服务、缓存加速和文件格式存储实现统一的访问接口。
- 解决方案:湖仓一体、存算分离、流批一体是解决基础设施问题的关键,通过统一基础设施解决分散的计算逻辑问题。
2. 统一的中间层
- 国际方案:包括Semantic Layer、Headless BI、Metric Layer等,强调事前建模和数据服务。
- 中国方案:数据中台,强调开发治理一体化,通过统一的模型、指标、计算逻辑与口径实现事前事中事后持续治理。
- 我们的方案:Neckless BI,在数据中台基础上进一步整合Headless BI建模、权限、加速和服务,实现展现交互的统一。
3. 统一的数据资产
- ETL与HTAP:ETL无法被消除,只能转移和隐藏,AutoETL和多源数据融合是关键。HTAP并非解决分析需求的最佳方案。
- Data Fabric:强调元数据集中和数据预加工,通过数据虚拟化、ETL等实现数据整合利用。典型能力包括数据源连接、主动元数据、逻辑数据湖等。
- Data Fabric能力:支持实时数据更新与消费、开放、低成本,实现企业全域数据资产的高效整合与管理,兼容各种风格的数据处理技术。
研究结论
现代数据分析架构正朝着统一基础设施、统一中间层和统一数据资产的方向发展。通过流批一体化、数据虚拟化、元数据管理等技术,可以实现企业全域数据的高效整合与利用,提升数据分析效率和价值。