核心观点与关键数据
- 快手数据治理背景:快手作为全球最大痴迷于为客户创造价值的公司,拥有庞大的用户基础(Q1 2022日均活3.4亿,月活5.9亿,日均时长128分钟),业务涵盖短视频、直播电商、招聘、本地生活等,数据平台规模达EB级总数据量、PB级日净增数据量,万级集群规模和十万级日作业量。
- 数据质量面临的问题:数据全链路存在数据源脏数据、重复、丢失,数据集成与仓库层面Schema变更、计算口径不一致、数据同步延迟,数据服务与应用层面指标命名、口径、出口不一致等问题。
- 数据治理整体解决方案:提出以“北极星指标(数据质量故障数)”为核心,通过数据治理平台(含质量评估体系、SQL Scan、埋点监控、生产/应用监控)实现事前规范(指标管理、埋点规范)、事中监控(指标平台工具度量)、事后诊断(指标管理、故障规范)的闭环管理。
指标体系建设
- 指标体系理解与价值:理解指标是逻辑抽象的统一语言,其好处在于口径统一避免数据质量问题、数据复用避免重复建设、服务提效(低代码数据服务)。
- 快手指标体系通用性问题:早期指标管理存在动力不足、缺少指标服务(仅作字典)、缺少流程规范、缺少与数据生产消费体系打通等问题,导致烟囱式数据服务,数据准确性无法保障。
- 指标平台解决方案:构建指标平台实现指标统一化管理(命名唯一性、定义唯一)、指标口径正确(一致性检测、规则监控、SLA)、指标出口统一(与指标服务打通),核心设计理念是“数据管理驱动——一处管理,全局使用”。
指标平台设计理念与功能
- 指标管理:实现数仓规划、业务线数据域、数仓分层、指标管理、业务/信息维度管理、维度码值命名字典表管理、指标/维度绑定,并保障指标定义唯一性。
- 指标监控:实现统一指标监控,包括指标准确性保障(值域检测、波动率检测)和及时性保障(一致性检测、SLA自身检测)。
- 指标服务:实现统一指标服务,核心是OneDSL(面向物理引擎查询和面向数据集指标维度查询的抽象语言),支持低代码用户通过查询维度自动生成代码,实现数据建模和自动化建模服务。
- 指标服务关键特性:
- 模型搜索:通过ModelSearcher、Zookeeper索引、搜索模块,根据指标、维度、范围、日期进行筛选,并按效率、完成时间等排序,返回最优模型。
- 代码生成:基于OneDSL和元信息,自动生成针对Hive、Druid、Hbase等引擎的查询代码,支持RBO/CBO优化。
- 服务隔离:通过路由策略、流量管理、隔离单元实现商业化等场景的服务隔离。
- 服务模式转变:从UGC(各自定义)模式转变为PGC(一处定义,多处使用)模式,实现数据复用、质量有保障、低代码。
数仓建设方法论
- 方法论:提出规范流程建设、指标维度建设、数据内容建设(指标粒度矩阵、模型、绑定)、数据集建设(规划、推广和应用)的数仓建设方法论。
- 商业化实战:生产侧建设(1+N)横向数据集(效果广告、展示广告、联盟广告等),消费侧对接数据分析产品(业务领域指标体系、指标管理、模型、数据集),实现研发效率提升10倍。
指标平台落地成果
- 成果:看板、指标取数、分析应用接入(数据主站、电商、游戏、商业化等),服务配置分钟级别,查询能力100w+/天(OLAP、OneService、分钟级别离线、毫秒级别热查询)。
指标平台价值与未来规划
- 平台价值:指标体系驱动数据生产与消费,打通数据全链路。
- 未来规划:完善生态(模型设计、数据生产、数据服务)、统一语言(建模、查询)、智能化(建模、优化)、开放共享(标准、开源)。