登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
7-2 基于 Doris 的知乎 DMP 平台的架构与实践
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
有梦想的人不睡觉
知乎DMP系统架构与实践总结
背景
问题与需求
:知乎业务中存在站内运营自闭环、站内外投放闭环等问题,需要建立DMP平台解决数据整合与赋能难题。
业务流程
:DMP与站内运营(内容、活动、用户)及站外投放业务结合,实现数据闭环。
画像特征
:DMP包含3层级特征分类(8组一级分类、40组二级分类、120个标签组),涵盖250万标签,数据量达1100亿条用户x标签数据。
功能梳理
:DMP通过人群圈选、人群洞察、人群泛化、特征生产、IDMapping、计算任务运维等功能模块支持业务流程。
架构与实现
DMP架构
:采用模块化设计,包括对外模块(接口、前台、后台)和业务模块(人群圈选、洞察、泛化、特征生产、IDMapping、计算任务运维、存储),强调高稳定性、可扩展性和低成本。
平台功能盘点
:
业务向
:支持5+万人群定向、400+次人群洞察、60+次人群泛化。
基础向
:每日处理2.xTB数据(5日11TB),包含120个离线生产任务和5个实时生产任务。
特征数据链路及存储
:
特征链路
:离线(Hive->特征抽取->离线标签)和实时(Kafka->特征抽取->实时标签)。
存储
:使用Doris存储用户x标签(1100亿)、id_mapping(8.5亿)和ElasticSearch存储标签枚举表(250万)。
人群定向流程
:包括标签搜索、人群预估、人群圈选、人群泛化等步骤,常见流程如标签加购物车、种子人群泛化、历史人群洞察再圈选等。
难点及解决方案
人群定向性能优化
:
第一阶段
:
倒排索引及IDMapping
:通过partition_sign、tag_group、tag_value_id、condidence、members等字段构建倒排索引,实现IDMapping。
查询逻辑变更
:将过滤条件从where的and/or替换为bitmap_and等聚合函数,优化取用户方式。
第二阶段
:
分而治之
:将连续用户id的tag数据分组,在group内完成交并差计算,多线程提升效率。
Colocatejoin优化
:通过Colocate原理优化数据预置和join操作,提升性能。
未来展望
业务向
:提升目标指向能力,实现目标结果与平台强绑定,实验与流程强绑定。
技术向
:提升查询效率(SQL重写为派生特征),提升导入速度(Spark直接写DorisTablet文件)。
你可能感兴趣
Apache Doris在知乎AB实验平台的使用实践
商贸零售
知乎
2024-01-14
基于零信任安全架构的开发运维安全管控平台实践
商贸零售
第六届云安全联盟大中华区大会
2023-04-15
7-2 基于AI求解器的智能化实践
商贸零售
DataFunSummit2022:决策智能在线峰会
2022-11-02
基于 Apache Doris 的传统行业实时数仓建设实践
商贸零售
浪潮海岳
2024-12-18
小米集团基于 Apache Doris 的 OLAP 实践
商贸零售
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09