行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

搜狐智能媒体在数据仓库体系建设中的技术实践

文化传媒 2024-12-16 - 搜狐 Marco.M

搜狐智能媒体数据仓库体系建设技术实践总结

数据仓库与数据分析基础

数据仓库定义：由 Bill Inmon 提出，是面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。
数据分析技术：包括商业智能 BI（数据报告、OLAP、数据挖掘）、OLAP（在线分析处理，支持多维分析）、多维模型（Cube、维度、层次、度量等）。
OLAP 操作：上卷（Roll-up）、下钻（Drill-down）、切片（Slice）、切块（Dice）、旋转（Pivot）。
OLAP Cube 构建：维度构建（扩展、裁剪）、指标构建（联合）。
OLAP 多维数据库：按存储格式分为 ROLAP、MOLAP、HOLAP，各有优劣。
维度建模：Kimball 方法将维度模型映射到关系模型（星型、雪花、星座模型）。
表分层：STG（原始数据）、ODS（操作数据）、DWD（明细数据）、DWS（汇总数据）、ADS（应用数据）、DIM（维度）。

数据仓库体系架构

架构概述：采用分层架构，包括原始数据层、操作数据层、明细数据层、汇总数据层、应用数据层和维度层。
计算范型：根据数据类型和时效性选择不同计算框架。
- 批量数据计算：Interactive Analysis（Impala、Apache Doris）、Batch Processing（Hive、Spark）。
- 实时数据计算：Stream Processing（Spark Streaming、Flink）、Statistic Analysis（Apache Doris、Impala）。
技术选型：Apache Doris 作为交互式 MPP 分析数据库，对比 Impala+HDFS/KUDU、Presto/Hawq、ClickHouse、Druid、ElasticSearch、Kylin 等的优势。

批量数据管理

数据任务管理：使用 Workflow 管理系统（Azkaban、Oozie、Airflow）进行任务调度和依赖管理。
- 核心概念：Project、Flow、Job、ControlNode、ActionNode、Workflow、Coordinator、Bundle、DAGs、Operators、Tasks。
- 任务编辑：以任务为单位编辑代码、周期、依赖等属性。
- 实例执行：按周期生成实例，动态生成依赖关系。
- 补历史数据：支持任务补数功能。
数据质量管理：以表为单位进行校验（行数、指标等），触发机制为任务执行后。
数据元信息管理：支持表的创建、修改、查询、生命周期管理、统计和搜索，实现表和字段的血缘解析。
数据安全管理：包括表权限申请、校验、审批和回收，以及任务执行前的权限校验。

实时数据管理

技术架构：结合 Kafka 和 Spark Streaming/Flink 进行实时数据处理。
- 元信息管理：通过 Spark Streaming 和 Kafka Consumer 进行 Schema 管理。
- 数据应用：通过 SQL 应用实现实时数据加载和查询。

总结

技术实践心得：采用产品化、服务化的技术方案，选择可靠的开源产品和代码，构建业务解决方案。

主要内容 •数据仓库体系建设主要工作 •搜狐智能媒体相关技术实践 •总结数据仓库 •Bill Inmon1991年–《Building the Data Warehouse》 •是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策 •不仅仅是一个数据存储计算软件或产品，而是包含整个数据分析处理过程体系数据分析 OLAP (Online Analytical Processing) •数据仓库中最经常使用的数据处理和分析技术 •Edgar F. Codd 1993–《Providing OLAP (On-line Analytical Processing) toUser-Analysts: An IT Mandate》 •OLTP(Online Transaction Processing)–支持业务处理，操作数据或者业务数据–不适合支持决策分析 •OLAP–支持决策分析–多维分析/多维数据库多维模型(Multidimensional Model) •OLAP中的数据组织范型上卷(Roll-up) SELECT Cube.地区, Cube.季度, Cube.分类, SUM(销售)FROM CubeGROUP BY Cube.地区, Cube.分类, Cube.季度下钻(Drill-down) SELECT Cube.地区, Cube.季度.月份, Cube.分类, SUM(销售)FROM CubeGROUP BY Cube.季度.月份, Cube.地区, Cube.分类切片(Slice) SELECT Cube.地区, Cube.季度, Cube.分类, SUM(销售)FROM CubeWHERE Dates.季度= 1Group BY Cube.地区, Cube.季度, Cube.分类切块(Dice) SELECT Cube.地区, Cube.季度, Cube.分类, SUM(销售)FROM CubeWHERE (Cube.地区= '江苏' OR Cube.地区= '浙江')GROUP BY Cube.地区, Cube.季度, Cube.分类旋转(Pivot) SELECT Cube.分类, Cube.地区, Cube.季度, SUM(销售)FROM CubeGROUP BY Cube.季度, Cube.地区, Cube.分类 OLAP Cube构建 INSERT INTO TABLE CSELECT day(from_unixtime(timestamp)) AS dt,hour(from_unixtime(timestamp)) AS hour,minute(from_unixtime(timestamp)) AS minute,vauleFROM A •维度构建–扩展–裁剪 INSERT INTO TABLE CSELECT B.a AS a, B.b AS b, A.v AS vFROM TABLE A INNER JOIN TABLE B ON A.id = B.id •指标构建–联合 INSERT INTO TABLE CSELECT a, b, sum(v) as vFROM TABLE A group by a, b INSERT INTO TABLE CSELECT a, sum(v1) AS v1, sum(v2) AS v2FROM (SELECT a, sum(v1) AS v1, 0 AS v2FROM TABLE A GROUP BY aUNION ALLSELECT a, 0 AS v1, sum(v2) AS v2FROM TABLE B GROUP BY a) AS t GROUP BY a OLAP多维数据库 •按数据存储格式划分–ROLAP(Relational OLAP)–MOLAP(Multidimensional OLAP)–HOLAP(Hybrid OLAP) •ROLAP vs MOLAP –查询速度–装载速度–存储空间–分析灵活性维度建模 •Kimball•关系建模方法，将维度模型映射到关系模型–维度表–事实表–星型模型/雪花模型/星座模型表分层 •层次–STG原始数据层–ODS操作数据层–DWD明细数据层–DWS汇总数据层–ADS应用数据层–DIM维度层 •优势：–防止烟囱模式，减少重复开发–将复杂问题简单化–层次清晰，便于使用和理解–…… 数据仓库体系架构主要内容 •数据仓库体系建设主要工作 •搜狐智能媒体相关技术实践 •总结搜狐智能媒体数据仓库技术架构 •计算范型：No One Size Fits All •批量数据计算–Interactive Analysis–报表、OLAP、AdHoc–Impala、ApacheDoris–Batch Processing–ETL、DataMining–Hive、Spark •实时数据计算–Stream Processing–ETL、CEP–SparkStreaming、Flink–StatisticAnalysis–报表、AdHoc–ApacheDoris Apache Doris—InteractiveMPPAnalyticalDatabase •Impala+HDFS/KUDU •ClickHouse–向量化–Scatter/Gather计算模型 –可以实时导入、查询功能完善–部署依赖多–KUDU只支持UniqueKey，聚合分析不友好–数据导入性能 •Druid–Bitmap索引、Rollup–Scatter/Gather计算模型 •ElasticSearch–Bitmap索引、schema-free–查询功能不完善 •Presto/Hawq/……–SQL查询功能完善–依赖HDFS作为存储层 •Kylin–Cube=>Cuboid=>KV存储–数据膨胀主要内容 •数据仓库体系建设主要工作 •搜狐智能媒体相关技术实践 •批量数据管理 •实时数据管理 •总结批量数据管理 •数据任务管理•数据质量管理数据任务管理：Workflow管理系统•Workflow –指一类能够完全自动执行的经营过程，根据一系列过程规则，将文档、信息或任务在不同的执行者之间进行传递与执行。 –Workflow管理系统，通过计算机软件对工作流的经营过程进行定义、执行并监控 •数据处理任务Workflow–节点通过数据流向依赖在一起，形成DAG有向无环图–可以根据任务依赖，自动执行任务，在任务之间传递数据 •存在问题数据任务管理：DAG节点=>任务&实例 •任务编辑实体–用户以任务为单位进行编辑–数据处理代码–如SQL、Shell等代码–周期属性–0 5** * ?最细小时粒度–依赖属性–依赖的父节点，就近依赖–自依赖–其他属性告警等 •实例执行实体 –实例创建–按天或小时为单位，根据任务周期属性，生成一个或多个实例，并指定每个实例运行时间–数据处理代码–继承对应任务中的数据处理代码–依赖关系–根据任务依赖属性和运行时间动态生成–其他属性–实例运行–依赖的父节点运行成功–自身的运行时间已到数据任务管理：实例依赖生成规则数据任务管理：实例依赖示例数据任务管理：补历史数据数据质量管理 •触发–任务实例执行完后触发–严重的质量问题可以阻塞下游实例调度数据元信息管理 •血缘解析：–hive.exec.post.hooks–Druid–Anltr–hive-exec SemanticAnalyzer •主要功能：–表的创建、修改、查询–表的生命周期管理–表的大小、分区等信息统计–表的名称、字段等搜索–表及字段的血缘关系血缘解析 •字段血缘解析 –注册UDF–重构SemanticAnalyzer–逻辑计划生成和逻辑计划优化–添加postExecHook，执行LineageLogger获得LineageContext–从LineageContext中组装血缘信息数据安全管理主要内容 •数据仓库体系建设主要工作 •搜狐智能媒体相关技术实践•批量数据管理•实时数据管理 •总结主要内容 •数据仓库体系建设 •搜狐智能媒体相关技术实践 •总结总结 •产品化、服务化 •技术实践心得–可靠的开源产品–可靠的开源代码–可靠的业务解决方案 ThankYou

点击免费查看完整报告