行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024年数据编织价值评估指南白皮书

纺织服装 2025-01-06 Aloudata 丁叮叮叮

引言

数据编织（Data Fabric）作为一种新兴的数据管理架构理念，近年来获得广泛关注。Gartner 多次提及数据编织，并预测其在未来 2-5 年内会获得广泛应用。企业也在积极探索数据编织，寻求在“数据中台”之外的另一种数据管理架构。

为什么需要关注数据编织

回顾过去 10 年企业数据中台建设的经验，可以发现数据中台存在以下问题：

技术业务匹配度不足：数据中台的开发模式适合业务模式相对稳定的场景，对于业务变化快、需求不明确的情况，容易导致前期数据模型建设成本的浪费。
技术组织就绪度不足：数据中台的开发和管理需要大量专业团队，人力成本高昂。同时，数据中台强调数据的“应存尽存”，导致数据快速膨胀，成本投入也随之增加。
技术 ROI 不明确：传统数据中台建设是一个 IT 先行投资、持续投入，但收益不确定的模式。

数据编织通过优化跨源异构数据的发现与访问，将可信数据以灵活且业务可理解的方式交付给所有相关数据消费者，具有以下优势：

提高数据访问效率
提高数据交付效率
降低数据存算成本
降低数据运维成本
增强数据管控能力

数据编织价值实现机制

数据编织通过数据虚拟化技术实现价值，其关键技术特性包括：

数据更新方式不同：数据编织通过数据投影技术将数据更新过程隐性化，简化了 ETL 运维过程。
智能查询下推，数据就近计算：数据虚拟化引擎具备更灵活的下推策略，可以将查询下推到数据源端就近计算，提升查询性能。
数据变更方式不同：数据编织支持数据变更的周期短、成本低。

数据虚拟化的关键技术包括：

数据投影技术：通过预先计算的方式保存某些耗时操作的结果，避免重复执行这些耗时操作，最终实现加速查询的目的。
智能查询加速，透明查询改写：数据虚拟化引擎可以自动识别和改写查询 SQL，将其转换为直接从本地存储的数据投影中查询，从而极大提升数据查询的性能。

数据编织体系可以实现传统数据仓库中分层分域的数据管理架构，通过逻辑数据视图定义和数据投影技术实现数据流动。

数据编织价值评估方法

评估数据编织的价值，需要紧紧围绕“让业务及时用上好数据”这一点进行评估，可以从以下 3 个维度进行评估：

提升数据交付效率：端到端地提升数据集成、整合到服务的交付效率，把数据需求的响应周期从周提升到天。
降低数据膨胀系数：从机制设计上系统化地减少数据拷贝，节省存算资源，提升存算的有效性和经济性。
减少数据管理成本：简化系统技术概念，降低数据平台的上手门槛和减少日常运维成本，并提升数据管理的自动化水平。

可以用以下 2 个指标进行衡量：

当天需求满足率：对“TimeToValue”理念的量化，是站在业务方视角评估和感受数据平台能力和价值的唯一核心指标。
数据动销率：对存算资源是否合理使用的量化指标，即当天有更新的数据在当天或未来一段时间内（比如 30 天内）的使用率。

数据编织价值案例介绍

Aloudata AIR 逻辑数据编织平台和 Aloudata CAN 自动化指标平台是数据编织的典型案例，具有以下特性：

Aloudata AIR
- 零搬运
- 秒级数据集成
- 逻辑建模
- 定义即研发，变更即发布
- OneSQL
- 自适应查询加速
- 自治理
Aloudata CAN
- 改变指标管理模式
- 改变指标开发模式
- 改变指标消费模式

Aloudata 同银行、证券、能源、制造、医疗等行业客户通过项目合作，摸索出数据编织的一系列最佳实践案例，例如：

首创证券 NoETL 敏捷数据分析实践
某头部车企全域数据逻辑整合实践
某跨国企业跨境合规数据查询实践

总结与展望

数据编织作为一种创新数据管理架构，将会对企业的数字化转型产生深远的影响。Aloudata 作为国内 Data Fabric 架构理念与实践引领者，致力于消除数据管理技术瓶颈，提升 ETL 工程自动化水平，助力企业平滑升级至下一代大数据基础设施。

Data Fabric Value Appraisal: Methodologies and Best Practices CONTENTS 引言01 为什么需要关注数据编织 02 数据编织价值实现机制 06 数据编织价值评估方法 16 数据编织价值案例介绍 19 总结与展望 24 引言数据编织（Data Fabric）作为一种新兴的数据管理架构理念，近年来获得广泛的关注，一方面，Gartner 不仅从 2019 年开始多次在数据技术趋势中提及数据编织，更在 2024 年的数据管理技术成熟度曲线里大幅提升数据编织的成熟度，预测该技术在未来 2-5 年内会获得广泛应用；另一方面，不少企业也在积极理解、探索和应用数据编织这一管理理念，寻求在“数据中台”之外的另一种数据管理架构。结合上述现状，本文从过往数据中台实践的复盘总结入手，牵引出数据编织的价值主张，并对数据编织的核心机制进行剖析，对数据编织的产品和案例进行介绍，让您从里而外真正具备数据编织的价值评估能力，从而推动数据编织在企业组织内的成功落地，最大化释放数据价值。 https://aloudata.com/white_papers/2ef9756e3beaef621f24fc4adaae8216*提示：如果您对数据编织这一数据管理架构理念缺乏基本的概念了解，建议先行从Aloudata官网下载阅读白皮书《Data Fabric，面向未来的数据管理架构》为什么需要关注数据编织随着企业经历多年的信息化建设，企业信息化水平不断提升，数字化思维不断形成，企业科学管理、智能运营、精准服务等数据分析和数据决策需求自然涌现，越来越多的企业开始采购、建设或升级数据底座，统一建设以数据湖仓为核心的一套数据中台，提升数据开发效率与数据治理能力是 CIO 们的第一反应。和教训，我们对数据中台体系的价值评估有 3 点认知升级：首先，需要评估技术的业务匹配度。一方面，我们强调“技术服务于业务”，数据体系建设最简单朴素的目标是“让业务及时用上好数据”；另一方面，我们又承认“技术落后于业务”，“业务在天上飞，技术在地上追 ”是常态，业务变化越快，技术响应越慢。具体到数据领域，为了实现全域及时一致的数据分析体验，需要对全域数据进行盘点，对数据仓库进行分层建模，比如：数据中台作为一种企业数据战略和组织设计，自2015 年由阿里巴巴首次提出至今也有近 10 年的时间，回顾和复盘过去 10 年企业数据中台建设的经验可以发现，上述这套成熟的数据仓库的开发模式每一层都需要有物理的数据搬运和加工，存在高昂的数据开发、任务运维和计存成本，这天然要求实施上述方案的企业的业务模式要相对稳定，看数用数场景要比较清晰明确，否则业务需求的灵活变化会导致前期数据模型建设成本的浪费。导致企业 CIO 选型数据中台的第一步也许就错了。其次，需要评估技术的组织就绪度。基于数据中台的解决方案存在众多的产品供应商和服务实施商，很容易让人误以为数据体系建设等同于数据中台的一次性部署和不定期的数据代码外包开发。很显然，这种想法过于简单了。这就存在一个明显的矛盾：企业期望数智化建设赋能业务灵活创新，而数据中台的这套开发模式天然要求业务伙伴思路要清晰，需求要明确，可以“打固定靶”。但现实并非如此，数据中台打数字化管理场景相对容易，打数智化运营场景就非常困难，这个矛盾数据开发与管理可以划分为数据集成、数据加工和数据服务三大步骤，相关的工作内容、工具对象与所需知识技能如下表：如上表所示，数据开发与管理是一项综合工程，涵盖了从数据的采集、存储、处理、分析到应用的全过程，具有很高的专业复杂度和组织复杂度，这也意味着需要具有一定人数的专业团队才能建设与管理企业的数据体系。操作和管理一个复杂的数据中台体系无论是供应商还是企业自身都是一件人力成本高昂的事。数据中台建设通常强调数据的“应存尽存”，通过 ETL将全域数据进行物理集中存储，并采用面向数据建模的方法构建数据中间层和采用面向业务建模的方法构建数据应用层，层与层之间以及层的内部都有相应的数据搬运和拷贝，存在数据快速膨胀的现象。这意味着数据中台建设成本不仅包括硬件相关的存算基础设施，也包括一系列的数据开发与管理工具，还包括建模、开发、运维与管理的大量人力投入，前期TCO（Total Cost of Ownership，总拥有成本）至少百万元。随着企业数智化的深入，数据源、数据类型、数据规模、数据需求在快速变化，数据链路和数据工程的复杂度在持续增加，任务运维和数据治理的工作量在指数级增长，数据体系的成本投入随之也水涨船高，成为 CIO 无法绕开的难题。从更高的维度来看，单纯依赖供应商服务的项目管理方式无法帮助企业实现数据架构的长远规划和迭代，也无法从外向内推动企业内部的数据治理变革，更无法代替企业自身从组织内部形成数据意识和培养数据文化，企业能否相对容易地建立一支自有员工组成的数据团队也是 CIO 必须要回答的课题。最后，需要评估技术的 ROI。为了消除数据孤岛，过数据虚拟化技术创建逻辑数据层，在单点逻辑集成了分散在不同系统中的数据，为数据使用者提供一个统一的、抽象的和封装的逻辑数据视图，用户通过这个逻辑数据视图能够查询和操作存储在异构数据源中的数据，把多个异构数据源当成一个同构数据源使用，而无需关心数据位置、数据类型和数据格式，实现了类似数据中台的统一集中化的数据访问与管理，其最大的差异点是无需事前搬运数据、无需事中运维ETL任务、无需事后计存治理（零搬运、免运维、自治理），为数据体系建设和数据管理架构提供了一种全新的思路。传统数据中台建设是一个IT先行投资、持续投入，但收益不确定的模式，哪怕在项目启动之初绑定数据应用场景，前期的应用场景也很难分摊数据中台的整体启动成本。那么有没有更敏捷更灵活的数据管理架构，既可以从0到1构建企业数据平台，也可以从1到10帮助企业升级现有数据底座？答案是肯定的，基于数据虚拟化技术的数据编织（DataFabric）为企业数据体系建设提供了全新的思路。正如引言所述，数据编织（DataFabric）是一种全新的数据管理架构理念，其核心理念是通过优化跨源异构数据的发现与访问，将可信数据以灵活且业务可理解的方式交付给所有相关数据消费者，让数据消费者自助服务和高效协作，实现极致敏捷的数据交付。经过国内外众多企业的实践验证，数据编织具有下述优势：与传统数据中台体系相比，数据编织的关键突破是通提高数据访问效率数据虚拟化为用户提供了一个统一的数据访问平面，无需先完成数据的物理搬运和统一集中即可访问数据，简化了数据访问过程。提高数据交付效率数据虚拟化支持逻辑数据视图的灵活定义与实时变更，通过自适应性能优化技术可以告别繁杂的 ETL 操作，极大地提升数据交付效率。降低数据存算成本相比传统的数据物理集成，数据虚拟化通过创建虚拟数据层，并只按需物化加速少部分数据以优化查询性能，省去了多次物理复制、移动和存储数据的高昂费用。降低数据运维成本相比传统 ETL 技术构建和运维复杂的数据管道，数据虚拟化提供更多简化数据管道设计与运维的工具，提升自动化运维水平。增强数据管控能力通过数据虚拟化构建全域统一的数据访问、共享与服务平台，进行集中化的数据管理，可以更好地实现数据安全与数据合规的统一控制和治理。近年来，在数据源高度分散、数据量和数据需求爆发式增长的背景下，数据编织中的关键技术——数据虚拟化技术得到了快速发展，数据编织这一全新的数据管理架构也获得了广泛的关注，数据编织正在成为企业下一代数据基建的重点投资方向。 02 数据编织价值实现机制正如 2000 年左右电子商务刚诞生的时候，大家对线上购物“先付款后收货”的模式充满观望，因为电子商务改变了线下“一手交钱一手交货”的常规模式；正如电动汽车刚诞生的时候，大家对电动汽车的行驶里程充满焦虑，因为电动车改变了燃油车“加油 5 分钟续航 500 公里”的驾驶体验；同样的情形也出现在数据编织这一新事物上，大家对数据编织的数据虚拟化技术的实际效果充满怀疑，因为数据虚拟化改变了数据仓库物理搬运数据的传统模式，破坏了传统数仓通过“空间换时间”实现历史数据保存和查询性能优化这一机制，从而不敢积极采纳数据编织来提升数据交付效率和降低数据管理成本。为了更好地推动数据编织的普及，除了更多的数据编织应用案例介绍，我们觉得很有必要通过一个简单的场景说明数据编织这一技术的价值实现机制，让一部分技术创新者通过深入理解这一技术从而敢于积极应用这一技术。让我们尝试通过一个简单的数据报表场景来说明数据编织的价值是如何实现的。业务需求描述假设业务需求如下： 1.不同的的，并做成；统计每日会员等级订单金额报表 a 2.不同的的，并做成；统计每日产品类别订单金额报表 b 业务需求理解 ETL 需求理解 03 为报表 a 和报表 b 编写 ETL 脚本，生成目标表表 a 和表 b 3 为报表 a 和报表 b 构建每日运行的 ETL 管道，保障目标表表 a 和表 b 的数据更新； ETL 数据探查 03 会员等级 member_level （10 个等级）来源于 Oracle 数据库中的会员表 member（1 亿数据量{ 3 产品类别 product_catalog（200 个类别）来源于 MySQL 数据库中的产品表 product（100 万数据量{ >3 订单金额 order_amount 来源于 MySQL 数据库中的订单表 order（10 亿数据量） ETL 链路设计 03 构建一张含和的wide_order会员等级产品等级订单宽表 3 构建一张的数据汇总表 t_rpt_a ，统计wide_order中不同的订单金额，每日更新记录到汇总表 t_rpt_a报表 a订单宽表会员等级 >3 构建一张的数据汇总表 t_rpt_b，统计wide_order中不同的订单金额，每日更新记录到汇总表 t_rpt_b；报表 b订单宽表产品类别传统 ETL 需求实现 1--通过数据同步工具配置member、product、order这三张表的数据同步过程在此忽略2--假设上述三张表已经采集到数据仓库内部34--定义含会员等级和产品类别的订单宽表wide_order5CREATE TABLEwide_order(6stat_dateDATE,7order_idVARCHAR 64(),8member_idVARCHAR 64(),9member_level--增加会员等级VARCHAR 64(),10product_idVARCHAR 64(),11product_category--增加产品类别VARCHAR 64(),12order_amount NUMBER(, )18 013);1415--每日更新订单宽表wide_order的数据16INSERT INTOwide_order order_id member_id member_level product_id product_category order_amount(,,,,,)17SELECTa order_id a member_id b member_level a product_id a product_category a order_amount., ., ., ., ., .18FROMorder LEFTJOINONamember ba member_idb member_id..=19LEFTJOINONproduct ca product_idc product_id..=20WHEREcurrent_datea stat_d

点击免费查看完整报告

2024年数据编织价值评估指南白皮书

引言

为什么需要关注数据编织

数据编织价值实现机制

数据编织价值评估方法

数据编织价值案例介绍

总结与展望

你可能感兴趣

《Gartner有效商业决策指南》系列研究：了解数据编织的作用

五大指南（其四）了解数据编织的作用

人工智能就绪度白皮书：企业数智化转型的AI变革路径与评估指南

2024年气象数据价值系列白皮书之四-探索气象数据收益分配新机制

白皮书：基于价值的品牌管理 - 进行品牌评估

白皮书：基于价值的品牌管理 - 进行品牌评估

2026年财务共享成熟度评估价值模型白皮书

人群精细化定向下的广告价值评估白皮书

专知生态溢价指数（EPI）系列报告之一国有银行上市公司生态价值评估与投资洞察白皮书

价值优先，效果为王——2026 企业级AGI 商业价值评估与选型白皮书

2024年数据编织价值评估指南白皮书

你可能感兴趣

《Gartner有效商业决策指南》系列研究：了解数据编织的作用

五大指南（其四）了解数据编织的作用

人工智能就绪度白皮书：企业数智化转型的AI变革路径与评估指南

2024年气象数据价值系列白皮书之四-探索气象数据收益分配新机制

白皮书 ： 基于价值的品牌管理 - 进行品牌评估

白皮书 ： 基于价值的品牌管理 - 进行品牌评估

2026年财务共享成熟度评估价值模型白皮书

人群精细化定向下的广告价值评估白皮书

专知生态溢价指数（EPI）系列报告之一 国有银行上市公司生态价值评估与投资洞察白皮书

价值优先，效果为王——2026 企业级AGI 商业价值评估与选型白皮书

白皮书：基于价值的品牌管理 - 进行品牌评估

白皮书：基于价值的品牌管理 - 进行品牌评估

专知生态溢价指数（EPI）系列报告之一国有银行上市公司生态价值评估与投资洞察白皮书