您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Aloudata]:2025年主动元数据:DataOps建设新支点白皮书 - 发现报告

2025年主动元数据:DataOps建设新支点白皮书

信息技术 2024-12-31 - Aloudata 绿毛水怪
报告封面

DataOps 建设新支点 Active Metadata: A New Pillar for DataOps CONTENTS 引言01 DataOps 体系建设的背景 01 DataOps 体系建设的目标05 元数据从被动到主动,成为 DataOps 建设新支点11 主动元数据的关键技术突破与关键衡量指标15 Aloudata BIG 主动元数据平台介绍18 Aloudata BIG 主动元数据平台客户案例介绍23 引言 DataOps 作为一个数据技术概念,自 2014 年首次提出至今已有 10 年的时间,同期数据中台作为一种企业数据战略和组织设计,自 2015 年由阿里巴巴首次提出至今也有近 10 年的时间。而在过往的这个 10 年的周期里,企业的数据量、数据需求和用数人群都爆炸式增长,这也直接推动了数据技术日新月异的蓬勃发展,DataOps 也在国内外以不同的形式完成了从技术概念导入到 具体应用实践的孕育过程。 本白皮书将站在面向未来 10 年的视角,重点探讨 DataOps 的未来发展方向,介绍当下企业建设 DataOps 体系的背景,分享我们对 DataOps体系在工程架构上的理解,并介绍主动元数据在DataOps 体系中的定位和作用,以及相应的产品方案与客户案例。希望本文能够有助于 DataOps更好的发展,有助于企业加快数据价值的释放。 01DataOps 体系建设的背景 也将企业经营各个环节进行了数据化,企业数据分析和数据决策需求自然涌现,因此BillInmon在1990 年提出数据仓库(DataWarehouse)的理念,并将其体系化,很好地回应了企业在商业智能领域管理决策场景的需求,形成了企业数字化建设的第一波浪潮。 1970 年,EdgarFrankCodd在《CommunicationoftheACM》上发表题为“ARelationalModelofDataforLargeSharedDataBanks(大型共享数据库的关系模 型 ) ”的论文,打开了企业信息化的大门。此后10 年诞生了不少数据库产品(比如Oracle、DB2等)和基于数据库的应用(比如OA、MIS、HR、CRM、ERP 等),在提升企业信息化水平的同时, 1990 年,Tim Berners Lee 和 Robert Cailliau 合作开发了万维网的第一个网页,打开了互联网的大门;2007 年,苹果公司发布了第一代 iPhone,重新定义了手机,标志着移动互联网时代的开启。从此人们的吃喝玩乐、衣食住行、谈婚论嫁乃至生老病死都被在线化数据化,至此人类进入大数据时代。为了更好地存储、计算与分析海量数据,谷歌在 2003 年到 2006 年期间发表了三篇重要论文:《 The Google File System》 ( 2003 年 ) 、《 MapReduce: Simplified Data Processing onLarge Clusters》 ( 2004 年 ) 和 《 Bigtable: ADistributedStorage System for StructuredData》(2006),对整个工业界数据技术的发展产生了深远的影响。2005 年,Doug Cutting 受到Google 论文的启发,开始开发 Hadoop,2006 年Hadoop 项目成为 Apache 软件基金会的一部分, 受 到广 泛的社 区 贡 献。 2010 年之后基于开源Hadoop 生态构建数据平台成为企业数字化建设的第二波浪潮。 2012 年 ,来 自Oracle 的Benoit Dageville 、Thierry Cruanes 和另一位数 据库 专 家MarcinZukowski 一起创立云数据仓库公司 Snowflake。随着云计算的普及,他们认识到传统数据仓库系统存在技术架构和商业模式的创新机会,提出了基于云原生的存算分离架构和按需付费商业模式,自2015 年正式上线以来获得了大量客户的使用。围绕Snowflake、Databricks这类新兴数据仓库和数据湖仓厂商, 大量的数据技术领域的创业公司,比如Fivetran、dbt、Atlan等,重新解构传统数据集成与 数 据管 理 方 案,逐 步 构 建 起 现代 数 据堆 栈(Modern Data Stack)生态体系。 由上可见,数据仓库底层存储与计算平台发生了技术变革,从集中式向分布式、从本地往云端演进,数据仓库的数据需求用例也发生了需求跃迁,从数据化管理向数据化运营发展, 这必然使数据开发、运维和管理工作发生根本性的变化。仅以一个视角来举例说明,mattturck.com 网站每年会定期持续 更新 MAD (Machine Learning, AI and Data) 全景图 , 2024 MAD 全 景 图 中 共 有 2011 个 Logo,2023 年是 1416 个 Logo,而最早的 2012 年的版本 只 有 139 个 Logo。 12 年 间 Logo 数量增加了14.5 倍,这直接说明数据工程与数据管理的复杂度有了指数级的提升。 MAD 全景图提供了一个从时间和空间两个维度纵览数据技术体系发展变化的工具,是否这样的工具呈现出来的“数据技术多样化、破碎化”这一现象只在海外发生,国内并非这样呢?我们认为不是的,因为推动这一现象产生的根本原因是数据分析需求用例的变化(从数据化管理到数据化运营),以及基于云计算技术引发的 IaaS 层 IT 架构变革(容器 化、弹性调度等),而这两点在中国同样发生,在中国行业数智化领先的企业内部一样可以看到类似MAD 全景图描述的这一现象。 正是因为过往 10 年数据技术领域翻天覆地的变化,打碎了以Teredata、Informatica为代表的传统数据仓库的技术生态, DataOps这一概念开始被提出。 2014 年 6 月 19 日,《信息周刊》特约编辑 LennyLiebmann 在 IBM Big Data & Analytics Hub 上发表一篇题为“DataOps 对大数据成功至关重要的 3个 原 因 ”( 3 Reasons Why DataOps Is EssentialFor Big Data Success)的文章,在文章中首次介绍了 DataOps。 ofdataflows betweendata managers anddataconsumers across an organization.The goal ofDataOps is todelivervaluefaster by creatingpredictabledelivery andchange managementofdata,data models andrelatedartifacts.) 2024 年中国信通院发布2.0版本的《DataOps 实践指南》,将 DataOps定义为“数据研发运营一体化”,是一种数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。 2018 年 Gartner 将 DataOps 纳入到数据管理技术成熟度曲线中,标志着 DataOps 正式被业界所接纳并推广起来。 Gartner 认为 DataOps 是“一种协作式数据管理实践,专注于改善整个组织内数据管理者和数据使用者之间数据流的沟通、集成和自动化”,其目标是“通过对数据、数据模型和相关工序创建可预测的 交 付 和 变 更 管 理 , 更 快 地 交 付 价 值 “。( Definition of DataOps - Gartner Information 从上述定义中不难发现,无论是 Gartner,还是信通院,都认为 DataOps 的价值主张在于通过“端到端”打通数据流水线,打破“点对点”的低效数据协作流程,实现“手递手”的数据价值释放。 Technology Glossary:DataOps is a collaborativedata management practice focused on improvingthe communication, integration and automation “点对点” “端到端” “手递手” 指数据人员、数据团队各自成 “点”成 “段”,形成 “孤点”和 “迷 宫”,无 法 跨 岗位、跨团队高效协同。 指实现数据集成、开发、部署、运维、治理等数据流水线的一体化。 指数据需求从产生到交付环环相扣,既“按 时”又“按质”,数据需求交付可预测可预期。 02DataOps 体系建设的目标 要实现“端到端”、“手递手”的 DataOps 价值主张,需要有与之匹配的可以履约上述价值主张的数据工程架构。 代数据工程架构”,用海外的业内术语也可以称之为“传统数据堆栈”(Traditional Data Stack)和“现代数据堆栈” ( Modern Data Stack )。这两种架构的对比示意可以结合上文 MAD 全景图的变化,参考下图理解。 从上文介绍的 DataOps 背景可以知道,企业的数据工程架构在 2010 年前后产生了明显的变革,我们可以称之前为“传统数据工程架构”,称之后为“现 从“传统数据工程架构”向“现代数据工程架构”迁移的进程,国内与海外略有差异,迁移的核心动力主要有以下三点: 以 Teredata 为代表的传统数据仓库过于昂贵,且支持的数据量有上限,叠加国内自主 可 控 和 海 外IT 上云的影响,产生了数据仓库引擎切换的热潮,比如国内的华为Gauss,海外的 Snowflake。全新的数据仓库引擎需要与之匹配的新的数据集成、开发、运维和管理工具,“现代数据工程架构”随之兴起。 作为一种企业战略行为,数据分析需求从管理层往业务一线人员蔓移,并越来越与业务经营行为相结合,对数据时效性、数据可用性、数据准确性等都提出了差异化需求。这些新产生的用数人群和需求用例,催生了“传统数据工程架构”往“现代数据工程架构”的演化。 02 在中国的大型企业,比如金融头部企业、大型国央企等或成立科技公司或扩大自研能力,不再依靠单一供应商的产品解决方案,往往采用“现代数据堆栈”的开源产品或第三方厂商的产品,客观上加速了“现代数据工程架构”在企业内的形成。 03 随着“现代数据工程架构”的引入和普及,企业也开始意识到该架构带来的新问题,比如“现代数据工程架构”通常由多个系统组成,系统割裂导致用户需要跨多系统工作,且每个系统都只解决一部分问 题,没有一个面向最终交付的平台;又比如多系统之间的运维操作风险等。随着数据工程体系的复杂度进入亿级、十亿级、百亿级,“现代数据工程架构”面临的更大挑战有: 数据协同难 Collaboration 随着企业数据应用场景的增加,越来越多的团队参与数据管道构建,导致数据管道持续增长,下游团队持续增多,很容易导致数据管道烟囱化越来越严重,从而形成日益复杂的工作流和数据流。因为工作流从组织分工的角度,天生是分团队分角色,“铁路警察各管一段”;又因为数据流从技术的角度,天生带有全局性,数据流上任意节点的变更和异常都会对周边产生影响,触发工作流的协同,因此跨团队跨角色的数据协同就异常困难。比如数据模型重构,往往需要上下游协同,而这种协同的参与人越来越多,节奏很难统一,协同难度越来越大。 数据管理难 Data Management 显而易见的趋势变化是“数据海啸”导致数据仓库里的数据量在成倍增加,ETL 任务也在成倍增长,ETL 工程师人均要维护的数据流中的表和数据管道的数量更是在成倍增加,纯粹依靠 ETL 工程师的经验和能力很难在一个高度复杂的数据流里找到优化方案,比如如何在一个有上万