核心观点与关键数据
数据仓库与数据湖
- 数据仓库:存储多源历史数据,用于分析报表,减轻生产系统压力,整合数据,保留历史记录,提高数据质量,确保单一真实版本,便于商业智能解决方案。
- 数据湖:低成本存储原始数据,支持多种规模实例,补充企业数据仓库,释放EDW资源,支持数据探索、高级分析、IoT数据等,提供高可用性和灾难恢复。
现代数据仓库与数据湖屋
- 现代数据仓库:结合传统数据仓库与数据湖的优势,支持ELT、实时处理、高级分析等。
- 数据湖屋:统一数据仓库和高级分析,解决数据湖和仓库的一致性、数据陈旧、高级分析支持有限、总体拥有成本等问题,支持ACID事务、时间旅行、流批统一等。
数据网格与数据网格体
- 数据网格:分布式数据架构,通过域所有权、数据作为产品、自助数据基础设施等原则,实现数据驱动的价值,解决数据质量、所有权、组织扩展、技术扩展等问题。
- 数据网格体:在Azure上实现数据网格的架构方法,支持跨数据中心、Lakehouse、Data Fabric和Data Mesh,提供可扩展的分析框架和部署模板。
云规模分析
- 云规模分析:支持大规模有效构建和运营化着陆区,与Azure路线图和云采用框架保持一致,提供可扩展的分析框架和主题专家设计。
数据结构与数据网格比较
- 数据结构:专注于数据架构,拥有域数据的数据产品并应用安全性和治理。
- 数据网格:关注数据架构、语义消费,通过广泛使用本体实现统一治理层,支持数据虚拟化、元数据和知识图谱。
成功的数据网格关键
- 面临当前痛点,企业文化开放接受变革,拥有丰富的人员经验,关注Data Mesh的相关顾虑,不盲目追逐最新潮流术语,不严格遵循Data Mesh教条,具备长远发展视角。
数据复制需求
- 原因:安全、治理、数据谱系、性能、数据版本控制、主数据管理、数据清理、语义层和星型模式等。
- 优势:性能提升、数据所有权解决、减少数据重复、减少ETL/ETL数据管道、快速上市、原型制作成本较低、减少数据陈旧/刷新、安全性集中。
- 劣势:数据所有权未解决、影响源系统性能、不支持数据版本控制、不支持MDM、如何管理数据清理等。
研究结论
数据网格将成为集中式数据解决方案的扩展,适用于一小部分解决方案,部分概念将在更大比例的解决方案中使用。成功实施数据网格需要面对当前痛点,推动企业文化变革,拥有丰富的人员经验,并具备长远发展视角。