AI智能总结
数据湖和湖仓一体产业观察 云计算与大数据研究所 数据湖&湖仓一体产业观察信通院未来工作计划 数据湖和湖仓一体技术发展及现状介绍 数据湖和湖仓一体技术发展及现状介绍 我国大数据发展态势好动力足 多年来,我国大数据高速发展,不断取得重要突破,发展态势良好。 近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。 资金•宁夏对于区内符合标准的优质大数据企业给予最高300万的资金支持•山东、黑龙江等省份要求省内县级以上人民政府每年需统筹安排资金专项扶持大数据相关企业•江苏省每年在省级财政安排12亿元专项资金支持工业企业“智改数转” 大数据技术进入深度优化阶段 经过60余年发展,大数据技术框架趋于成熟,进入深度优化阶段。目前已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技术框架,并广泛应用,已能够支撑具有高并发、低延迟数据处理分析需求的极端场景。 企业复杂多变的业务诉求需要湖仓一体平台 随着数据类型多样化、分析场景的多元化,企业需要搭建数据平台来支撑各种数据应用系统,比如SQL分析、实时监控、机器学习等,进而助力企业加速实现数据价值变现。当前常见的数据平台架构是使用多个系统来平衡数据仓库和数据湖的优劣势。 湖仓一体提升数据管理效率和灵活性 湖仓一体是为解决大数据场景下的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题的一种新型架构。湖仓一体打破数据仓库与数据湖之间的壁垒,融合两种架构的优势:构建在数据湖低成本的数据存储架构之上,同时具备数据仓库的数据处理和管理能力。 实现方案:•基于Hadoop体系的数据湖向数据仓 库能力扩展•基于云平台进行架构构建•基于三大开源数据湖(Hudi、Iceberg、Delta Lake)的解决方案•基于数据库的自研平台 七大技术特性: •多种数据类型分析•数据治理•事务支持•BI支持•存算分离•开放型•实时性 数据湖&湖仓一体产业观察 中国信通院—信息社会创新发展的思想库和使能者 中国信通院—信息社会创新发展的思想库和使能者 ◆20家创新中心(京外) •智能制造与工业互联网领域【上海、江苏、湖北、广东、重庆…】•车联网领域【上海、四川】•人工智能、大数据等新一代信息技术领域【江苏、河南…】 鼎力支撑国家大数据战略 中国信通院秉持“国家高端专业智库产业创新发展平台”的宗旨和要求,在大数据领域积极落实国家战略,为国务院及工信部、网信办、发改委等部委完成了大量支撑工作,获得广泛认可 2021 2015 持续发布大数据研究成果 ❑在大数据领域深入研究,共计发布白皮书等研究成果50余份 中国信通院大数据工作体系 数据基础设施工作体系 数据基础设施工作体系从2015年起开始搭建,核心围绕数据采集、存储、计算领域的技术产品、解决方案以及供应商,覆盖其选型、实施、应用、运维全流程,从而指导大数据实现技术突破、合理应用。 已有144家企业参与测试; 依照标准的贯标测试次数达到360次 持续进行理论研究,自研多款测试工具 国际标准(2项)行业标准(9项)团体标准(50余项) •ITU-T F.FDAM"Framework for data asset management"•ITU-T F.AFBDI"Assessment framework for big data infrastructure"•大数据数据挖掘技术要求与测试方法•大数据数据集成工具技术要求与测试方法•大数据分布式批处理平台技术要求与测试方法•大数据分布式事务型数据库技术要求与技术方法•大数据大数据分布式分析型数据库技术要求与测试方法•大数据用户行为分析技术技术要求与测试方法 持续发布大数据研究成果 在大数据领域深入研究,共计发布白皮书等研究成果30余份中 国 信 通 院 从2014年 起,开 始 发 布《大数据白皮书》,内容包括大数据领域内政策、技术、产业、应用等,旨在梳理产业现状、定位产业问题、引导产业方向。目前已经发布7版,已经成为业界洞察大数据产业发展的重要参考。 阿里云、腾讯、星环等9家企业产品通过测评 云原生数据湖技术要求包括存储、计算、安全、数据管理、兼容、运维、湖应用、高可用共计8大能力域,46个能力项 云原生湖仓一体数据平台技术要求 阿里云、科杰、新华三、南大通用等4家企业产品通过测评 云原生湖仓一体数据平台技术要求包括湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力共计5大能力域,23个能力项 观察1:数据湖和湖仓一体技术快速发展、功能不断完善 ➢项目可选项通过率在51%-85%和31%-50%的数量最多,有数据湖、湖仓一体、商务智能(BI)、数据可视化、图计算、图数据库、数据开发等项目,可见这些技术都在不断发展,能力不断完善。 ➢平均每个评测项目的可选项通过率为59.99%。 观察2:数据湖的云原生能力有待进一步提升 ➢测试过程中发现,数据湖在存储、数据源管理、多场景分析、计算生态支持等能力上,各产品差别不大。而统一元数据管理能力项,目前集成单独产品的会支持的更好。 ➢云原生能力中容器化、serverless能力比较弱,分别为:33%、22%。 ➢三大开源数据湖协议中Hudi和Iceberg支持度最高,均占44.5%。 观察3:湖仓一体中湖到仓的发展路线产品化程度更高 ➢湖仓一体演进的两个技术路线:湖→仓和仓→湖,其中湖→仓的落地产品化程度更高,功能更完备,占比75%。 ➢从能力项演示形式统计来看,湖->仓路线的湖仓一体产品可视化能力支持更好。 信通院未来工作计划 信通院未来工作计划 标准与评估 ➢启动并完成《湖仓一体建设成熟度模型》标准编制 ➢持续跟进大数据产业发展,研究产出实践方法论《湖仓一体技术与产业研究报告》 标准推进计划 湖仓一体建设成熟度模型 2023年6月大会发布 感谢您的观看