登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
3-2 淘系数据模型治理最佳实践 - 郭进士 淘宝天猫数仓
信息技术
2022-06-13
DataFunSummit2022:数据科学在线峰会
B***
AI智能总结
查看更多
淘系数据模型治理
背景&问题
整体情况
:数据来源中78%为机器生成,9%有效活跃;各分层活跃表分布为DWD(11%)、DIM(11%)、DWS(64%)、ADS(9%);模型生命周期25个月,年增长30%,留存44%。
问题
:
临时表多(22%),污染数据体系;
命名不规范,缺乏管控;
公共层复用性不高(50%表下游表数<=1);
公共数据表分布不合理(淘宝数据团队占比50%);
公共层建设不足或透出不足(引用CDM的ADS占比逐年降低);
ADS重复建设(超过17.63%ADS表被下游ADS复用);
应用层跨集市依赖问题明显(整体30.1%,大进口和淘宝数据40%以上);
ADS共性未下沉;
ADS穿透依赖。
问题分析
问题汇总
:系统临时表多、命名不规范、CDM过度设计、ADS重复建设、ADS跨集市依赖、ADS共性未下沉、ADS穿透依赖。
原因分析
:
系统临时表多:导出/报表/算法工具过程临时表缺少消亡机制;
命名不规范:缺少配套的onedata工具进行规范管控,新员工对规范认识不足;
CDM过度设计:CDM和ADS研发分工协作不明确,ADS研发自建过度扩展性设计;
ADS重复建设:onedata缺少ADS集市架构规范,研发对已有ADS无感知;
ADS跨集市依赖:ADS集市缺少依赖管控,研发快速响应业务缺少沉淀意识;
ADS共性未下沉:ADS和DWS边界定义不清晰,研发分工协作不明确;
ADS穿透依赖:ODS研发快速响应业务,核心CDM模型未被感知。
模型治理的问题
:治理成本高、治理协作复杂、问题治理难根治。
治理方案
整体方案
:盘点存量,规范增量,日常治理保健康。
机制规范
:
架构分层标准:uODS、uDWD、uDIM、uDWS、uADS;
集市划分规范:以业务场景或服务对象划分,符合MECE原则;
公共层共建机制:应用需求驱动,设计开发共建,公共层研发统一运维保障。
智能建模
:
数据体系目录结构化模型设计线上化;
打通研发流程,自动生成简代码;
对接地图数据专辑,提升效率保证规范。
模型治理
:
模型分V1.0指标组成和计分方法;
模型评估看板:数据应用层效率、依赖深度、共性ADS、跨集市依赖等;
效果看板:DFD标签平台、模型评估指标、模型问题标签等。
未来规划
应用层效率
:研发核心工作量投入到应用层,提升研发和运维效率,平衡效率与规范。
架构规范管控
:基于分层标准落地,完善设计、开发、运维、变更、治理等规范。
产品工具提效
:应用层智能建模功能提效,数据测试、数据运维功能升级,事中、事后数据治理能力构建,数据地图找数用数提效。
你可能感兴趣
淘宝数据治理及稳定性保障实践_郭进士
信息技术
ArchSummit深圳2023|全球架构师峰会
2023-08-02
1-2 数仓规范化—菜鸟数据模型管理实践 - 王智龙
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15
【国君家电】魔镜8月淘系(淘宝+天猫)数据速递行业整体2
未知机构
2022-09-07
光伏注册方案和并网的数据模型和数据采集——最佳实践和建议
电气设备
国际能源署
2020-11-15
网易严选离线数仓治理实践
网易
2023-03-09