2020年代的数据驱动企业越来越多地使用数字化、实时业务流程、自动决策(AI/ML)和专注于与分析竞争。数据仓库经历了从战略智力到运营智能再到激活的演进阶段。
数据仓库市场在2020年至2022年间呈现200%的复合年增长率,规模不断扩大。与传统数据仓库相比,现代数据仓库的规模和复杂性显著增加,例如,一个大型数据仓库的规模相当于迪拜哈利法塔的规模。
数据仓库的架构主要包括关系架构(IDW)和星型架构,其中星型架构更适用于集成数据仓库。集成数据仓库的核心要求包括支持高效连接、复杂查询优化、快速战术查询、管理复杂工作负载、支持并发操作、全天更新以及高度数据可用性。
在性能方面,大型连接测试显示,当数据规模增加时,查询性能和成本会急剧上升。例如,在10TB数据规模下,查询成本是1TB数据规模的4.7倍。大连接实验表明,性能问题的原因是中间查询结果的大小超过了服务器的SSD容量。
云数据仓库平台在性能和成本上存在显著差异。例如,使用三种流行的云DW引擎为相同的数据仓库工作负载收取的年度云费用差异很大。云中的数据仓库虽然具有敏捷性、弹性、成本和可扩展性等优点,但也存在资源不免费、规模快速上升导致性能和成本上升等挑战。
现代数据仓库不再局限于单一中央存储,而是包括云、上Prem、多云等多种部署方式。现代分析数据平台管理多种类型的用于分析的数据,包括数据湖和数据仓库。
选择云数据仓库平台时,需要根据业务兴趣和需求进行量化评估,并测试预期的未来工作负载和要求。关键在于考虑服务级别、规模、数据库复杂性、查询复杂性等因素,并使用系统的过程进行测量和测试,而不是接受供应商声明。
总之,2020年代需要更多的数据仓库,企业需要定量定义需求并展望未来。云数据仓库引擎在性能和成本上存在显著差异,因此需要谨慎选择平台。