网易严选DMP标签系统建设实践
平台总览
网易严选DMP标签系统以数据为核心,构建标签体系和画像体系,辅助业务精细化运营。平台功能包括数据服务构建、用户洞察、标签体系、人群圈选、画像分析等。核心概念包括标签(描述业务实体特征的数据形式)和人群圈选(通过条件组合从全体用户中圈出一部分用户)。核心能力包括标签查询、人群圈选(分组判断、结果集拉取、画像分析)。
业务流程定义
业务流程包括JQL2(表示层DSL)-> SQL计算(Spark存储)-> Hive & Doris查询。
技术架构
技术架构分为数据同步、计算存储、元数据管理、缓存清理、调度层、服务层。服务层包括标签管理、生成等LabelService,实体分组服务FactGroupService,基础标签数据服务QueryService,画像分析服务AnalysisService。
标签生命周期
标签生命周期包括标签需求(运营提出并设定价值预期)、产品评估(评估合理性和紧迫性)、精准营销运营、人群圈选运营、排期生产(数据开发梳理数据,建立模型,排期上线)。
标签生产
标签按时效性分为聚合标签和明细标签,按聚合粒度分为离线标签和实时标签。标签组合包括基础数据和业务标签。人群圈选包括离线人群包+实时行为,使用翻译DSL(HiveSQL、ESQuery、DorisSQL)和Spark分组刷新高级计算。
标签存储
存储要求包括高性能查询、SQL支持、更新机制、大数据量存储、扩展函数、大数据生态结合紧密。存储版本一使用Elasticsearch、Impala,存储版本二使用Apache Doris。存储对比显示Apache Doris适用于高性能查询、分析场景。
高性能查询
分组存在性查询采用异步化并行查询、快速短路、查询语句优化。人群分析包括基础属性、路径数据、消费数据+路径分析、消费模型、人群分布。
未来规划
未来规划包括更加丰富准确的标签评价体系、提升标签质量和产出速度、提升标签覆盖率、更加丰富的用户分析模型、用户洞察模型评价体系、通用化画像能力建设。