Kyligence Cloud 云上数据湖分分析报告总结
核心观点与问题背景
- Kyligence 简介:Kyligence 是由 Apache Kylin 创始人于 2016 年创立的,面向大数据的领先开源 OLAP 平台,融合 Kylin 和 Intelligence,获得 Redpoints、Cisco 等顶级投资机构支持,采用双头办公模式,提供 24*7 全球 SLA 服务。
- 数据湖分析三大问题:自助数据湖中存在数据信任问题、数据冗余(“泥湖”)、ETL 成本高、数据扩展性差等问题,导致用户增加 100 倍时 IT 成本也增加 100 倍。
多维数据模型解决方案
- 自助服务极端问题:中国互联网巨头因自由形式、自我服务导致数据表爆炸式增长(5.7k ODS 表扩展至 1m 宽表),重复 ETL 浪费严重,宽表聚合表缺乏统一业务语义。
- 多维数据模型优势:通过构建多维数据模型,可以标准化数据、减少重复 ETL、降低成本,同时支持业务创新。
- Kyligence Cloud 功能:作为多维数据库(MDDB),Kyligence Cloud 旨在组织数据资产、缩短洞察时间、降低总拥有成本。
多维数据模型如何解决问题
- 组织数据资产:
- 多维数据模型特性:专注于模型而非表格,使用 SQL 和 MDX 语言,消除重复数据。
- 案例:通过 1 个模型和 2 个长方体替代 8 个宽表,减少 8-3 和 4-1 的表数量,降低 10 亿级高管查询成本。
- 减少洞察时间:
- 预计算优势:95% 的预计算结合 5% 的在线计算,通过 SQL 快速查询,优化存储缓存(如 RaptorX 分层缓存)和计算加速(如 Velox、ClickHouse)。
- 优化器设计:通过 Transformer 和 WholestageTransformer 优化 Spark 计算计划,提升性能。
- 降低 TCO 和人力投入:
- 自动化扩展:云上自动化可扩展性,支持 Spot 实例和弹性扩展。
- 存算分离:存储/计算分离,对象存储读写分离,K8S 调度提高资源利用率。
研究结论
- 关键收益:数据湖中的多维数据库(Kyligence Cloud)可以显著减少洞察时间、降低总拥有成本,解决“泥湖”问题,通过优化数据组织和 ETL 流程提升业务效率。
- 联系方式:Apache Kylin 和 Kyligence 公司官网、邮箱和社交媒体信息。