登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
7-2 基于 Doris 的知乎 DMP 平台的架构与实践
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
有***
AI智能总结
查看更多
知乎DMP系统架构与实践总结
背景
问题与需求
:知乎业务中存在站内运营自闭环、站内外投放闭环等问题,需要建立DMP平台解决数据整合与赋能难题。
业务流程
:DMP与站内运营(内容、活动、用户)及站外投放业务结合,实现数据闭环。
画像特征
:DMP包含3层级特征分类(8组一级分类、40组二级分类、120个标签组),涵盖250万标签,数据量达1100亿条用户x标签数据。
功能梳理
:DMP通过人群圈选、人群洞察、人群泛化、特征生产、IDMapping、计算任务运维等功能模块支持业务流程。
架构与实现
DMP架构
:采用模块化设计,包括对外模块(接口、前台、后台)和业务模块(人群圈选、洞察、泛化、特征生产、IDMapping、计算任务运维、存储),强调高稳定性、可扩展性和低成本。
平台功能盘点
:
业务向
:支持5+万人群定向、400+次人群洞察、60+次人群泛化。
基础向
:每日处理2.xTB数据(5日11TB),包含120个离线生产任务和5个实时生产任务。
特征数据链路及存储
:
特征链路
:离线(Hive->特征抽取->离线标签)和实时(Kafka->特征抽取->实时标签)。
存储
:使用Doris存储用户x标签(1100亿)、id_mapping(8.5亿)和ElasticSearch存储标签枚举表(250万)。
人群定向流程
:包括标签搜索、人群预估、人群圈选、人群泛化等步骤,常见流程如标签加购物车、种子人群泛化、历史人群洞察再圈选等。
难点及解决方案
人群定向性能优化
:
第一阶段
:
倒排索引及IDMapping
:通过partition_sign、tag_group、tag_value_id、condidence、members等字段构建倒排索引,实现IDMapping。
查询逻辑变更
:将过滤条件从where的and/or替换为bitmap_and等聚合函数,优化取用户方式。
第二阶段
:
分而治之
:将连续用户id的tag数据分组,在group内完成交并差计算,多线程提升效率。
Colocatejoin优化
:通过Colocate原理优化数据预置和join操作,提升性能。
未来展望
业务向
:提升目标指向能力,实现目标结果与平台强绑定,实验与流程强绑定。
技术向
:提升查询效率(SQL重写为派生特征),提升导入速度(Spark直接写DorisTablet文件)。
你可能感兴趣
Apache Doris在知乎AB实验平台的使用实践
信息技术
知乎
2024-01-14
基于零信任安全架构的开发运维安全管控平台实践
第六届云安全联盟大中华区大会
2023-04-15
7-2 基于AI求解器的智能化实践
电子设备
DataFunSummit2022:决策智能在线峰会
2022-11-02
基于 Apache Doris 的传统行业实时数仓建设实践
浪潮海岳
2024-12-18
小米集团基于 Apache Doris 的 OLAP 实践
电子设备
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09