登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-2 淘系数据模型治理最佳实践 - 郭进士 淘宝天猫数仓
信息技术
2022-06-13
DataFunSummit2022:数据科学在线峰会
Bach🐮
淘系数据模型治理
背景&问题
整体情况
:数据来源中78%为机器生成,9%有效活跃;各分层活跃表分布为DWD(11%)、DIM(11%)、DWS(64%)、ADS(9%);模型生命周期25个月,年增长30%,留存44%。
问题
:
临时表多(22%),污染数据体系;
命名不规范,缺乏管控;
公共层复用性不高(50%表下游表数<=1);
公共数据表分布不合理(淘宝数据团队占比50%);
公共层建设不足或透出不足(引用CDM的ADS占比逐年降低);
ADS重复建设(超过17.63%ADS表被下游ADS复用);
应用层跨集市依赖问题明显(整体30.1%,大进口和淘宝数据40%以上);
ADS共性未下沉;
ADS穿透依赖。
问题分析
问题汇总
:系统临时表多、命名不规范、CDM过度设计、ADS重复建设、ADS跨集市依赖、ADS共性未下沉、ADS穿透依赖。
原因分析
:
系统临时表多:导出/报表/算法工具过程临时表缺少消亡机制;
命名不规范:缺少配套的onedata工具进行规范管控,新员工对规范认识不足;
CDM过度设计:CDM和ADS研发分工协作不明确,ADS研发自建过度扩展性设计;
ADS重复建设:onedata缺少ADS集市架构规范,研发对已有ADS无感知;
ADS跨集市依赖:ADS集市缺少依赖管控,研发快速响应业务缺少沉淀意识;
ADS共性未下沉:ADS和DWS边界定义不清晰,研发分工协作不明确;
ADS穿透依赖:ODS研发快速响应业务,核心CDM模型未被感知。
模型治理的问题
:治理成本高、治理协作复杂、问题治理难根治。
治理方案
整体方案
:盘点存量,规范增量,日常治理保健康。
机制规范
:
架构分层标准:uODS、uDWD、uDIM、uDWS、uADS;
集市划分规范:以业务场景或服务对象划分,符合MECE原则;
公共层共建机制:应用需求驱动,设计开发共建,公共层研发统一运维保障。
智能建模
:
数据体系目录结构化模型设计线上化;
打通研发流程,自动生成简代码;
对接地图数据专辑,提升效率保证规范。
模型治理
:
模型分V1.0指标组成和计分方法;
模型评估看板:数据应用层效率、依赖深度、共性ADS、跨集市依赖等;
效果看板:DFD标签平台、模型评估指标、模型问题标签等。
未来规划
应用层效率
:研发核心工作量投入到应用层,提升研发和运维效率,平衡效率与规范。
架构规范管控
:基于分层标准落地,完善设计、开发、运维、变更、治理等规范。
产品工具提效
:应用层智能建模功能提效,数据测试、数据运维功能升级,事中、事后数据治理能力构建,数据地图找数用数提效。
你可能感兴趣
淘宝数据治理及稳定性保障实践_郭进士
商贸零售
ArchSummit深圳2023|全球架构师峰会
2023-08-02
1-2 数仓规范化—菜鸟数据模型管理实践 - 王智龙
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15
【国君家电】魔镜8月淘系(淘宝+天猫)数据速递行业整体2
商贸零售
未知机构
2022-09-07
光伏注册方案和并网的数据模型和数据采集——最佳实践和建议
商贸零售
国际能源署
2020-11-15
网易严选离线数仓治理实践
商贸零售
网易
2023-03-09