您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱分析]:2022年中国湖仓一体平台市场研究报 - 发现报告
当前位置:首页/行业研究/报告详情/

2022年中国湖仓一体平台市场研究报

2023-06-15孟晨静爱分析机构上传
2022年中国湖仓一体平台市场研究报

《2022年中国湖仓一体平台市场研究报告》 报告编委 报告指导人 黄勇 爱分析 合伙人&首席分析师 报告执笔人 孟晨静 爱分析 分析师 《2022年中国湖仓一体平台市场研究报告》 目录 摘要...............................................................................................................1 1. 湖仓一体架构介绍............................................................................................ 2 1.1. 大数据平台架构进入湖仓一体时代..................................................................2 1. 2. 实现湖仓一体的两种路线:湖上建仓和湖仓融合................................................4 1. 2 .1. 湖上建仓.......................................................................................4 1. 2 . 2 . 湖仓融合........................................................................................5 1. 2 . 3 . 湖仓融合是湖仓一体架构的未来.............................................................7 2. 湖仓一体平台软件市场规模.................................................................................8 2.1. 湖仓一体平台软件定义.................................................................................8 2.2. 中国湖仓一体平台软件市场规模....................................................................9 2.3. 湖仓一体平台软件厂商能力要求..................................................................10 2.4. 湖仓一体平台软件厂商全景图......................................................................11 2.5. 湖仓一体平台软件市场份额.........................................................................12 2.6. 代表厂商介绍.........................................................................................14 2.6.1. 科杰科技........................................................................................14 2.6.2. Databricks.....................................................................................15 3. 对湖仓一体厂商的建议......................................................................................16 3.1. 重点关注云原生、DataOps和Data Fabric与湖仓一体平台的融合..........................16 3.1.1. 云原生技术能够极大释放湖仓一体平台的价值............................................16 《2022年中国湖仓一体平台市场研究报告》 3.1.2. DataOps、Data Fabric能够放大湖仓一体平台的应用价值,提升湖仓一体平台的竞争优势.................................................................................................16 3.2. 重点布局金融,关注制造、交通等潜力行业.....................................................17 版权声明............................................................................................................19 关于爱分析.........................................................................................................20 研究与咨询服务..................................................................................................21 《2022年中国湖仓一体平台市场研究报告》 北京爱分析科技有限公司 www.ifenxi.com 1 摘要 l 为适应数据应用需求,大数据平台架构持续演进,历经数据仓库、数据湖两个阶段。2020年,湖仓一体概念提出,湖仓一体架构因能实现数据资产统一管理、降低数据冗余、降低大数据平台架构运维复杂性,将成为大数据平台的主流架构。 l 根据爱分析调研,2022年中国湖仓一体平台软件市场规模15.2亿元。其中,科杰科技市场份额占比11.1%,华为云占比9.5%,星环科技占比7. 3 %。爱分析预测,2025年,中国湖仓一体平台软件市场规模将达近100亿元,2022-2025年三年复合增长率为86%。 图表1 湖仓一体平台软件市场规模及增速 图表2 2022年湖仓一体平台软件市场份额占比 l 湖仓融合作为湖仓一体的先进架构,在ACID事务性、存算分离、批流一体、元数据统一管理等方面具有明显优势,未来将成为湖仓一体架构实现的主流技术。 l 要在竞争激烈的湖仓一体市场取得成功,厂商应当重点关注云原生、湖仓融合、Data Fabric、DataOps等能力的构建,以上能力将构成湖仓一体平台软件的技术壁垒。在布局上,需重点布局金融业,同时关注工业、交通等潜力行业。 《2022年中国湖仓一体平台市场研究报告》 北京爱分析科技有限公司 www.ifenxi.com 2 1. 湖仓一体架构介绍 1.1 大数据平台架构进入湖仓一体时代 随着数据量级持续扩展,数据类型多元化,以及数字化转型深入企业数据应用场景变得日益复杂,业务对于数据实时性的要求需要企业兼具批处理、流处理能力;复杂的业务类型又需要企业同时具备描述性分析、预测性分析、诊断决策性分析以及探索性分析等能力。相较数据仓库、数据湖,湖仓一体更能完全满足数字化转型企业对大数据平台的各种需求。这也预示着大数据平台架构历经数据仓库、数据湖两个阶段后,正式进入湖仓一体新时代。 图表3 大数据架构演进驱动因素 1)企业数据分析需求推动数据仓库出现 20世纪90年代,为满足企业敏捷数据分析需求,基于联机分析处理(OLAP)的数据仓库概念开始出现并迅速发展。数据仓库能解决分散数据源的集成、分析问题并作为第一代数据分析平台开始被大范围使用。 图表4 数据仓库示意图 《2022年中国湖仓一体平台市场研究报告》 北京爱分析科技有限公司 www.ifenxi.com 3 2)海量异构数据的分析需求促使大数据平台进入数据湖阶段 21世纪互联网时代,社交媒体、搜索引擎等新应用层出不穷,为数据应用场景带来剧烈变化,数据体量从GB级提升至TB和PB级,原有大数据平台架构的可扩展性远远无法满足计算需求。同时文本、图像、语音等非结构化数据量急剧增长,异构数据低成本存储对大数据平台提出了新的挑战。数据湖以极低成本实现任意格式数据的统一存储、管理和分析,尤其适用于数据挖掘、预测、推荐等高级分析场景等优势开始被广泛应用。 图表5 数据湖示意图 3)数字化转型时代,数据资产统一管理和共享服务推动湖仓一体发展 在实践中,数据湖本身具有明显的局限性,如数据湖对SQL标准、ACID特性的支持较差,数据质量难以保证,数据版本控制和索引功能也不足,难以完成批处理和流式作业融合,致使数据湖难以完全取代数据仓库,敏捷分析类的企业级应用场景仍然是以数据仓库为主。 数字化转型时代,企业需要采用新的架构实现海量异构数据的低成本存储和高效分析的同时实现数据资产统一管理和共享服务。 为兼具数据湖低成本存储、数据仓库高效分析的特性,企业尝试通过松耦合的方式分别承建数据仓库和数据湖。数据湖集中存储所有数据,数据仓库主要存储结构化数据。此种架构下,数据需要在两套架构间多次备份,产生数据孤岛、存储冗余、开发维护困难、数据响应周期长等问 《2022年中国湖仓一体平台市场研究报告》 北京爱分析科技有限公司 www.ifenxi.com 4 题。 2020年,Databricks首先提出“湖仓一体”的概念,湖仓一体是一种结合了数据湖和数据仓库优势的新范式。同期,国内技术厂商开始探索湖仓一体实践。本报告中,湖仓一体是指结合数据湖和数据仓库的新型架构体系,能实现海量异构数据的统一存储、计算、开发、管理和服务,支持多种高级分析引擎,为企业打破数据孤岛、提高数据应用价值。湖仓一体能有效解决数据孤岛、降低数据存储冗余,减轻系统维护难度,是在数据仓库、数据湖基础上升级后的新型数据架构,未来将广泛被大型企业采纳用于提升数据生产力,助力数字化转型升级。 1.2 实现湖仓一体的两种路线:湖上建仓和湖仓融合 业界对湖仓一体的探索存在湖上建仓、湖仓融合两种路线,湖仓融合代表未来趋势。 1.2.1 湖上建仓 图表6 湖上建仓架构示意图 《2022年中国湖仓一体平台市场研究报告》 北京爱分析科技有限公司 www.ifenxi.com 5 湖上建仓一定程度上实现了数据湖和数据仓库的结合。在这种架构中,多源异构数据先统一ETL至数据湖中进行集成、存储,再被ETL到数据仓库中,支持数据分析;同时也支持数据科学、数据挖掘、机器学习、深度学习等多种计算分析引擎访问。 但湖上建仓没有完全解决数据一致性、数据冗余等问题,并没有真正实现数据统一管理,而且从数据湖ETL数据到数据仓库的形式,也带来了ETL的复杂性。湖上建仓架构的不足体现在以下几个方面: Ÿ 数据质量不可靠:数据从数据湖ETL至数据仓库中,数据湖和数据仓库的数据一致性需通过多个流式引擎处理,相较传统数据仓库的批处理,操作复杂度大幅增加,可靠性难以保证,极易产生数据一致性问题。 Ÿ 未实现全量数据对ACID事务性的支持:数据湖中的大部分数据仍是非结构化数据,数据仓库并不支持对数