元数据管理实践总结
元数据的定位与数据治理
元数据是数据治理的基础设施,在解决数据质量和时效不高、核心数据识别困难、数据治理难以维持、数据安全风险高、数据开发烟囱化严重等问题中发挥核心作用。通过资产元数据识别数据表价值,数据血缘识别任务链路,推进核心/低价值任务治理;通过主数据治理及数据质量提升,提升数据一致性及数据质量;通过数据分类分级及数据安全治理,降低生产及大数据侧数据存储、传输和使用安全风险。
元数据治理体系
核心数据保障
- 建立项目空间支持多租户及资源分配,核心任务由数仓统一管控
- 队列划分:核心>重要>一般,核心任务优先级最高
- 资源策略:5点前优先核心队列,5点后按优先级及依赖分配
- 任务优先级变更控制规范:事业群申请->数仓评估->大数据领导审批->实施->运维监控
主数据治理
- 通过主数据治理实现同源多用+数据质量提升,逐步建立主数据权威
- 单一数据源主数据定义、数据质量稽核、质量管控与提升、主数据集成&服务、主数据应用&消费
- 重点确保主数据的唯一性和权威性,建立严格的数据稽核机制及质量管控策略
- 主数据应用遵循规范流程,统一集成并在元数据中标记,再进行服务构建和数据消费
数据规范体系建立
- 坚持生产源头治理并行:
- 数据安全治理(存储、传输、使用)
- 生产元数据治理(库表字段命名规范统一)
- 主数据识别与应用
- 制定主数据标准、元数据标准、数据开发规范、数据权限管理规范、数据安全规范、数据分类分级标准
- 建立稽核+通报机制
产品架构
- 元数据查询、血缘分析、元数据注册、数据目录、产品功能管理&服务质量度量、质量监测
- 元模型、元数据维护、库表管理、元数据服务、数据生命周期管理、敏感数据发现、数据分类分级、主数据定义、主数据集成&服务、主数据应用&消费、报表与可视化、数据应用自助分析
- 主/元数据标准、数据安全规范、数据开发、数据资产、数据总线
- 数据治理体系涵盖数据消费、数据安全治理、数据质量提升、主数据治理、数据规范体系、基础数据治理、信息架构完善、数据内容治理、数据规范使用、数据开发规范、质量改进、数据平台
元数据平台技术介绍
设计理念
- 后处理系统(post-hoc system)
- 使用Bigtable作为存储介质
- 大量多样化批处理任务
- 数据集搜索中的评分函数
架构设计
- 接收层:适配不同数据源,接收元数据
- 服务层:提供元数据查询、管理和分析服务
- 存储层:利用不同存储系统存储元数据信息、查询索引和血缘信息
元数据模型
元数据采集
未来展望
- 支持多源异构数据的管理
- 多集群跨DC容灾
- 智能推荐