AI智能总结
演讲人:乔光阿里巴巴数据研发专家 01背景及问题 背景及问题-整体情况 ①数据规模增长快 ③大量表无人负责或非本团队负责 大淘宝数据在2020年~2022年之间规模增长迅速 未归属表占比:16%,其中活跃表12% ②无效表&无效节点占比较高 ④非数研角色数据规范不足 存在大量无效表和无效节点,占比较高,带来成本、运维和找数据问题 非数研角色开发的数据在设计、开发等方面规范不足 背景及问题-分层分布情况 背景及问题-业务支持情况 •大淘宝缺少统一的数据架构规范•公共层面向分析型数据业务建设不足,数据效率不足 问题 02解决方案 03模型治理 模型治理-无效表下线&ODS同源导入治理 模型治理-公共层专项运营及治理 模型治理-增量管控 模型治理-产品化1DataWorks-智能数据建模 •支 持从业务抽 象 到数仓顶层规划;•支 持设置 模 型设计空间,不 同 部门可 共 享一 套数仓规范 等 ,可 以统一 管 理 不 同研发空间的数据 模 型 ; 支 持 可视化数仓维度 建 模 ,支 持 多种大数据 引 擎 的 正 向 和 逆 向 建 模 •支 持 逆 向 建 模 ,解决现有数仓的 建 模冷启动难题;•支 持 通过快 速复用 元数据结构、Excel文 件导入 模 型 和 通过FML快 速构建 模 型 ;•支 持与数据开发无缝打 通 ,自动生 成ETL框架代码; •可 根 据 原 子 指标、修饰词等 批 量创建 派 生 指标;•与维度 建 模 无缝打 通 ,能 通过将指标快 速 搭 建 成模 型 ; 模型治理-产品化2 DataWorks-数据治理中心 核心功能特性: •检查项:治理问题的预防卡点,事前的问题自动预防•治理项:存量问题的挖掘整治,事后的问题自动发现和治理•量化评估体系:研发、质量、安全、存储、计算五维度的健康分•资源使用分析:降本增效利器,让每一分钱都花得清楚明白 模型治理-产品化3 DataWorks-数据 地图 •【搜索&推荐】搜索结果过滤增强•【内容&组织】数据专辑 •将结构化的知识集中管理,有效的目录组织、支持知识导入, 可以实现数据更好地管理和维护。•【内容&组织】数据地图与DataWorks数据打通 •【内容&搜索】智能机器人 •将数据知识进行算法处理,透过机器人问答实现找表、用表 等。 模型治理-能力沉淀 模型治理-总结 04未来规划 未来规划 评治一体 供给消费提效 架构规范管控 评估治理流程自动化:将模型评估的治理项直接与治理产品打通,降低数据开发的治理成本结合新技术,如:大模型等能力,提升相似表、字段、代码口径等的识别,通过自动生成代码、自动血缘切换等能力,实现治理的简单化、自动化 提升规范管控能力:将更多管控规则通过产品化分发到各个研发环节 供给提效:升级智能建模、数据地图、治理中心等产品能力,提升数据设计、开发、上架效率,提升供给效率消费提效:提升数据运营、推荐、引导、治理效率,促进数据消费提效 —THANKS—