AI智能总结
梁超 数据建设的三个阶段:从在线开发到数据综合治理 阶段三数据综合治理 阶段二数据平台构建与管理 阶段一在线开发 关注研发人员个人效率提升 关注数据质量和资产管理 大数据建设,不仅仅是研发效能的问题 数据质量 需求响应 成本资源 数据标准 烟囱式开发及局部业务服务支撑,导致同名指标不同口径的问题频发;历史不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出 烟囱式开发造成资源重复建设浪费;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储造成资源浪费 重复建设导致任务链冗长、任务数繁多,计算资源紧张,数据时效性不好;口径梳理定义的文档与开发代码脱节,数据准确性保障风险高 烟囱式开发的开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满且技术无沉淀;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通 阿里巴巴也一样经历过:业务之痛、数据之痛 业务体感不好 •命名不规范、口径不统一、算法不一致等导致的数据不标准使得业务困扰;•烟囱式开发的开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢;重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好 技术不爽且浪费 •烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难; 阿里巴巴数据中台建设的关键举措 在不变中求变,在发展中创新 “工具+规范”打造标准化采集 第二步:用工具来管理,提升效率 第一步:建立一套规范 价值 标准规范:《埋点流程规范》、《埋点设计规范》、《埋点测试规范》 事件设计 埋点实施 看板检验 智能管理 事件体系规范 点击事件类型 自定义事件类型 曝光事件类型 区块与内容管理规范 事件设计规范 SPM管理页面区块,并跟踪来源去向 事件ID、参数ID、上报机制、上报类型 SCM内容管理,分析内容&活动在各个位置的效果 用户属性、属性ID、属性类型 全链路数据治理体系及闭环治理能力 保障数据资产健康,促进数据资产流通,催生数据资产价值 解决之道:实战沉淀阿里大数据能力产品化 Dataphin智能数据建设与治理 面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力,包括产品、技术和方法论等,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系,以驱动创新。 Dataphin的核心能力 工具化、自动化、智能化、价值化 数据规范定义:100%消除二义性 设计即开发:分钟级自动化代码生成 拖拽式数据模型设计+自动化代码开发=高效的数据研发生产力 标签萃取更需要快速简单融入业务经验 融入标签生产业务经验,降低标签生产门槛;快速构建企业数据资产,助力营销投放提效或风险控制保障 基于拖拽配置规则,或输入片段表达式,生成标签数据 数据资产管理:360°全链路数据洞察与管理 数据需要资产化管理,而非当做成本 主题式服务:80%简化查询与分析 面向业务的逻辑模型呈现数据,而非技术化的物理表 主题式基于逻辑模型查询 Step1:查找所有相关的物理表(10分钟-30分钟) Product summary logical table LT_prd_dwsStep1:查找所需主题的逻辑模型(1分钟) Table 1:Product info dim_prdTable 2:Product transaction dailydws_prd_trd_1dTable 3:Product transaction dailydws_prd_pv_1dTable 4:Product review multi-daydws_prd_cmt_nd SELECT prd_id, pay_amt_1d, pv_1d, cmt_cnt_7dFROM LT_prd_dwsWHERE ds = ‘${bizdate}’;Step2:编写SQL查询(3分钟) 即席查询 API配置调用 场景化服务 某企业的数据建设及管理大图 集成16个来源系统涉及(或部分涉及)的数据,体系化建设形成会员、商品、交易、营销等数据域资产,目前数据存量200TB+该企业信息部20余人基于Dataphin,联动QuickBI及QuickAudience,服务销售管理部、营销业务部等5个一级部门、近千人 数据视角内容 业务视角内容 Dataphin·规划 Dataphin的常见服务方案 瓴羊智能服务激活每一份数据,创造全新的价值!