您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2022:现代数据栈技术峰会]:7-4 数据驱动业务发展——业务指标数据体系建设及集市治理实践 - 发现报告

7-4 数据驱动业务发展——业务指标数据体系建设及集市治理实践

AI智能总结
查看更多
7-4 数据驱动业务发展——业务指标数据体系建设及集市治理实践

业 务 指 标 数 据 体 系 建 设及 集 市 治 理 实 践 张婉绮京东数据挖掘工程师 目 录C O N T E N T 01业务集市现状03未来展望02业务集市治理 业务集市治理背景 通过数据体系系统化地获取及分析数据,为业务决策提供有效支撑,驱动业务发展 提供高效率规范数仓能力,减少数据分析师线下工作量,提升分析效率。 更多关注业务数据交付,不关注集群状态历史集群无序建设 业务集市现状 烟囱式开发现象严重 跨层依赖严重 模型分散,冗余计算任务浪费过多集群资源。 业务数据共享度低 跨层依赖严重,读取共享数据有明显问题,存在大量重复读取消耗IO资源,缺乏共享复用。 无统一数据标准 业务线多,耦合性强,但数据共享度低。 各业务团队间没有统一数据标准,数据口径难以保持统一,质量参差不齐。 不可知 不可控 不可取 不可用 业务集市治理要点 业务集市治理实践 02 业务数据体系规范化框架及业务集市治理实践 数据体系规范化框架实践 集群治理——业务基础模型规范 用建设业务数仓的思路搭建标准通用化模型。按照不同业务线组织数据,主要进行明细数据的整合,解藕数据源,简化数仓模型使用复杂度。面向分析师通用应用场景,高效获取统一口径,支持常用指标和维度分析。 治理思路--更关注模型在整条业务线上的普适性及有效性,而非深陷某个具体业务或指标的拆解分析。 集群治理——数据指标体系 应用数据层为专题经营分析服务,模型按照具体的需求进行设计。其数据直接供数据看板产品展现使用,或者推送到其他系统做相关的数据支撑。 按分析对象耦合数据,供日常查询,提升易用性。 集群治理——指标维度值统一 集群治理——指标维度值统一 根据不同的维度组合进行聚合时,对同一维度组合生成全局唯一场景值编码,可方便快速定位到所需下钻维度。针对Groupby/GroupingSets维度组合进行全局排,映射维度字段形成全局唯一编码,并支持反推。00 0 1 1 1 selectgroupdim(‘维度a,维度b,维度c,维度d,维度e,维度f‘,grouping__id,’s’) selectgroupdim(‘维度a,维度b,维度c,维度d,维度e,维度f‘,grouping__id,’h’) 集群治理——ClickHouse字典刷岗 将发生在该SKU的历史事实数据,按照最新的SKU及岗位等维度信息,进行历史数据回溯 获取SKU和维度信息的对应关系 维度组合爆炸 数据量级大 刷新频率高 •明细数据量级大•多张大宽表关联•刷岗日期范围不断增大 •明细刷岗后需重新聚合•精细化运营下维度越来越多 •日粒度刷新•时效要求高 集群治理——ClickHouse字典刷岗 在ClickHouse中将维表加载到字典,然后将明细表基于字典直接进行相应岗位的数据查询 集群治理——ClickHouse字典刷岗 应用效果: ü用户26个月周期数据,每日2.5小时更新完成 ü1亿用户按日汇总秒级返回ü30亿用户刷岗去重数据按月汇总30S内返回 集群治理——ClickHouse字典刷岗 集群治理——ClickHouse字典刷岗 治理措施效果: ü对读取频率top的大模型进行行/列裁剪ü通过信息过滤构建加速模型,减少数据量ü复用度高的数据沉淀业务数仓,简化数仓模型使用复杂度,标准化口径支持通用维度快速关联。ü维表存储数据特性,通过拼接快速对定位数据ü合理设计中间表,降低加工过程计算难度 应用效果: ü读仓成本降低43%ü应用层模型数量减少51%,存储降低34%ü末端看板产品出数时间缩短3小时 03对未来的展望 非 常 感 谢 您 的 观 看