菜鸟数据模型管理实践总体方案
菜鸟末端业务介绍
菜鸟驿站提供面向社区和校园的物流服务平台,包括包裹代收、代寄等服务。业务涵盖网络拓点、硬件设备、商业化服务、消费者服务等。数仓架构包括数据计算、数据服务、数据应用等模块,但存在数仓建设痛点,如规范和建模实操脱节、中间层不足、模型复用性低、稳定性差等。
模型管理整体规划
问题总结
公共层覆盖不足、核心模型复用性低、稳定性不足、健壮性不足、数据成本高、规范和易用性不足。本质问题在于数据模型和数据规范管控落地不足。
整体目标
- 稳定性:提升数据产出时效和质量稳定性。
- 扩展性:提升模型变化的兼容性。
- 时效型:提升数据模型产出时效和需求响应速度。
- 易用性:降低下游使用门槛,提供灵活性。
- 成本:避免重复建设,优化任务消耗,节约成本。
整体方案
通过组织保障、制度流程体系的建设结合产品工具实现模型线上化,构建模型评估体系和推送治理机制,促进模型优化和完善。
建模实施流程
- 正向建模:通过DataWorks智能建模平台完成模型线上设计、评审、发布。
- 逆向建模:借助DataWorks智能建模平台逆向导入存量模型,实现全面盘点。
数据建模平台建设
平台规划
从规范定义、便捷开发、发布评审、业务管理四个维度展开,支持数仓分层、数据域、业务过程定义,数据字典、标准代码、度量单位定义,可视化数仓维度建模,原子指标、派生指标设计,以及业务抽象到数仓顶层规划。
平台落地
与DataWorks产品团队共建智能数据建模产品,实现规范定义、逆向建模、多表克隆、代码模式、Excel操作、发布评审、智能翻译、数仓大图等功能。
核心功能
- 规范定义:表名规范、分层划域等。
- 逆向建模:批量逆向、FML批量调整。
- 多表克隆:选择已有物理表进行建模。
- 代码模式:定义表命名并保存。
- Excel操作:批量导入和交互。
- 发布评审:按数据域划分定义评审人。
- 智能翻译:命名词典、智能翻译引擎。
- 数仓大图:数据字典导出功能。
总结&展望
建设成果
- 辅助数据体系规范化建设,规范落到实处。
- 沉淀企业级核心数据资产。
- 降低储存成本和计算成本。
- 提升建模效率及研发效率。
建设成果展示
- 逆向建设中治理并下线了历史15%的模型表。
- 末端开发效率整体提升30%。
- 末端团队全员使用,公共团队全员使用。
建设计划
- 模型管理体系建设,包括数据模型健康评估、主键设置、数据质量健康分、数据波动、数据异常、变更测试工单处理、简单加工计算/存储健康分、无下游长周期数据倾斜、基线破线稳定性健康分、延迟告警、通用性健康分、复用度、完善度、命名规范、研发规范健康分、注释规范、Sql使用规范、数据类型规范、外部依赖等。