您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[大数据技术标准推进委员会]:2023年湖仓一体技术与产业研究报告 - 发现报告
当前位置:首页/其他报告/报告详情/

2023年湖仓一体技术与产业研究报告

2023年湖仓一体技术与产业研究报告

湖仓一体技术与产业 研究报告 (2023年) CCSA TC601 大数据技术标准推进委员会 2023年6月 版权声明 本报告版权属于CCSA TC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:CCSA TC601大数据技术标准推进委员会”。违反上述声明者,本院将追究其相关法律责任。 编制说明 本报告的撰写得到了大数据领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 参编单位:大数据技术标准推进委员会、中国移动通信集团山东有限公司、威海市商业银行、阿里云计算有限公司、腾讯云计算(北京)有限责任公司、华为云计算有限公司、北京镜舟科技有限公司、北京飞轮数据科技有限公司、科大讯飞股份有限公司、中兴通讯股份有限公司、天津南大通用数据技术股份有限公司、杭州数梦工场科技有限公司、杭州比智科技有限公司、北京数势云创科技有限公司、浙江数新网络有限公司、北京百度网讯科技有限公司、北京滴普科技有限公司、北京科杰科技有限公司、北京偶数科技有限公司。 参编人员:魏凯、姜春宇、闫树、马鹏玮、田稼丰、刘彦美、朱祥磊、高鹏、魏冲、刘一鸣、孔亮、林楠、王宁、崔潇扬、杨勇强、汪定新、王涵毅、白雪、赵峰、汤雅琴、伍攀、陈关良、赵青柏、谢辉、高经郡、张立群。 前 言 数据平台是能够为企业提供数据分析能力、支撑上层数据应用、助力企业数字化转型的底层基础设施,它包含数据存储、数据计算分析等能力的一套基础设施,通过汇聚各方数据,提供“采-存-算-管-用”全生命周期的软件支撑。经过数十年的发展,数据平台架构持续演进,主要经历了数据库、数据仓库、数据湖三个阶段。 如今,数据仓库和数据湖是数据平台最广泛的两种架构:数据仓库具备规范性,可针对结构化数据进行集中式的存储和计算,但无法处理半结构化与非结构化数据,且其扩展能力有一定局限性;数据湖具有更好的扩展能力,能够灵活支持对于多种类型数据的高效取用,但不支持事务处理,缺乏一致性、隔离性,数据质量难以保障。数据仓库和数据湖是两套相对独立的体系,各有优劣势,无法相互替代。 为满足多种数据类型存储、多场景分析等业务诉求,企业采用数据湖+数据仓库混合架构。“数据湖+数据仓库”混合架构满足了结构化、半结构化、非结构化数据高效处理需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的问题,但也存在混合架构复杂,开发运维难度大、成本高,数据处理链路长时效低等问题。 湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台底层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝调度和管理,并使得上层通过统一接口进行访问查询和分析。 自2021年“湖仓一体”首次写入Gartner 数据管理领域成熟度模型报告以来,随着企业数字化转型的不断深入,“湖仓一体”作为新型的技术受到了前所未有的关注,越来越多的企业视“湖仓一体”为数字化转型的重要基础设施。湖仓一体平台的建设解决了流批一体面临的原子事务、一致性更新以及元数据性能瓶颈等问题,使得湖仓一体平台的构建既能满足短期业务发展的需要,又能支撑长期的数据应用诉求。 为给社会各界深入了解湖仓一体技术与产业提供有价值的参考。本报告聚焦于湖仓一体技术,详细梳理了数据平台发展历程、湖仓一体实践路径,研究分析了湖仓一体产业现状,并对湖仓一体未来发展进行了展望与研判。由于时间仓促,水平所限,错误和不足之处在所难免,欢 迎 各 位 读 者 批 评 指 正 , 意 见 建 议 请 发 送 至liuyanmei@caict.ac.cn。 目 录 一、湖仓一体是数据平台发展的重要趋势................................................................ 1 (一)数据平台的发展历程 .................................................................................... 1 (二)数据湖、数据仓库特性分析 ........................................................................ 3 (三)湖+仓混合业务架构存在四大痛点 .............................................................. 4 (四)湖仓一体技术应运而生 ................................................................................ 6 二、湖仓一体实践路径.............................................................................................. 10 (一)湖上建仓 ...................................................................................................... 11 (二)仓外挂湖 ...................................................................................................... 13 三、湖仓一体产业及应用现状.................................................................................. 14 (一)湖仓一体主要厂商和代表产品 .................................................................. 15 (二)湖仓一体在互联网、电信、金融等信息化程度高的领域应用程度高 .. 17 四、结论与展望.......................................................................................................... 19 附录:典型案例.......................................................................................................... 21 图 目 录 图1 数据平台发展历程图........................................................................................... 1 图2 湖+仓混合架构图 ................................................................................................ 5 图3 湖仓一体架构模块图........................................................................................... 7 图4《湖仓一体数据平台技术要求》标准总体框架................................................. 8 图5《Gartner数据管理成熟度曲线》2022年 ........................................................ 10 图6 我国数据平台软件市场规模............................................................................. 15 图7 实践路径统计图................................................................................................. 16 图8 2022年湖仓一体市场行业统计图..................................................................... 17 表 目 录 表1 数据湖与数据仓库对比表................................................................................... 4 表2 两种实现路径对比表......................................................................................... 11 表3 湖仓一体主要厂商和代表产品......................................................................... 15 表4 各行业需求现状表............................................................................................. 17 湖仓一体技术与产业研究报告(2023年) 1 一、湖仓一体是数据平台发展的重要趋势 (一) 数据平台的发展历程 需求催生技术革新,在存储海量数据需求的推动下,数据平台架构持续演进,经过数十年的发展,主要经历了数据库、数据仓库、数据湖三个阶段。 来源:CCSA TC601 图1 数据平台发展历程图 数据库:20世纪60年代,数据库诞生,此时企业的数据量不大且数据类型比较单一。这一阶段企业对数据的使用需求主要是面向管理层从宏观层面对公司的经营状况做描述性分析,处理的数据为有限的结构化数据,支撑数据存储和计算的软件系统架构比较简单。20世纪70年代,最早出现的关系型数据库已经得到了一定程度的应用。关系型数据库主要应用于联机事务处理OLTP场景,如银行交易等。代表产品有Oracle、SQL Server、Mysql等。 数据仓库:随着互联网的快速普及,门户、搜索引擎、百科等应用用户快速增长,数据量呈爆发式增长,原有的单个关系型数据库架构无法支撑庞大的数据量。20世纪90年代数据仓库理论被提出。数据 湖仓一体技术与产业研究报告(2023年) 2 仓库是为解决单个关系型数据库架构无法支撑庞大数据量的数据存储问题而诞生。数据仓库是为了对数据整合而形成的架构,核心是基于OLTP系统的数据源,根据联机分析处理OLAP场景诉求,将数据经过数仓建模形成 ODS、DWD、DWS、DM等不同数据层,每层都需要进行清洗、加工、整合等数据开发(ETL)工作,并最终加载到关系型数据库中。数据仓库多为MPP(Massively Parallel Processor)架构,代表产品有Teradata、Greenplum、Clickhouse等。 2003-2006年,Google的“三驾马车”:分布式文件系统GFS、分布式计算框架MapReduce和数据库Big Table,为技术界提供了一种以分布式方式组织海量数据存储与计算的新思路。受此启发开源大数据项目Hadoop诞生了。2008年基于Hadoop自建离线数据仓库(Hive)成为数据仓库的首选方案。2010年前后,云厂商纷纷推出云数据仓库产品,如:AWS Redshift、Google BigQuery、Snowflake、MaxCompute 等。 数据湖:随着移动互联网