您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:网易云音乐数仓建设之路 - 发现报告
当前位置:首页/其他报告/报告详情/

网易云音乐数仓建设之路

2023-03-09网易邓***
网易云音乐数仓建设之路

(第1期)网易云音乐数仓建设之路雷剑波网易云音乐数据专家 数仓体系建设-背景部分业务发展迅速,为响应快速变化的数据需求,ETL有时候会选择较为便捷的做法,如:依赖配置不合理、同一分区扫描多次缺乏开发规范各业务相对独立,且发展过程不一,导致数仓构建相对独立,未能形成统一数据模型,无法高效实现数据资产的共享缺乏统一体系缺 乏 主 题 域 抽 象 、 中 间 层 建 设 无序 , 严 重 消 耗 计 算 资 源 、 存 储 资源 , 同 时 增 加 开 发 维 护 成 本 及 管 理成本缺乏分层和抽象缺 乏 统 一 的 数 仓 设 计 规 范 , 表 命 名 、字 段 命 名 根 据 各 自 的 经 验 建 设 , 理 解和 使 用 成 本 很 高缺乏设计规范 数仓体系建设-业务目标算法:产出稳定、质量可信、标准化服务,支撑高效迭代模型业务:简单易用、探查方便,支撑快速的数据探索和想法验证降低数据使用门槛、提升决策利用效果、数据驱动业务增长分析师:数据一致、纬度多样、指标丰富,支持方便的交叉分析算法:产出稳定、质量可信、标准化服务,支撑高效迭代模型业务:简单易用、探查方便,支撑快速的数据探索和想法验证 数仓体系建设-目标规范化打通各业务数据,实现高效共享、使用共享化自助化制定数据仓库公共规范建立统一数据仓库模型打通数据配送“最后一公里”,easyFetch上线公共数据资产数据质量、健壮水平、服务响应速度、资源消耗 数仓体系建设-架构图高质量高稳定高效率低成本 数仓体系建设-内容维度化:用户域、资源域的标签更加多元和丰富精细化:沉淀更多不同粒度、不同维度的明细&汇总数据场景化:实现push、短信、私信、投放等全流程的数据贯通标准化:制定坑位的标准化规范和码值定义自动化:实现新增的规范化埋点,自动进入流量模型资产化:落地流量罗盘数据产品,将流量标准化为业务可理解的数据数据资产沉淀流量数据治理准确、丰富、易用、高效 格式凌乱10+个业务域,埋点格式差异较大,埋点查找需数据开发配合;10000+历史埋点需测试其格式准确性开发效率低客 户 端 埋 点 实 现 无 较 好 的 技 术设 计 、 工 程 规 范 , 数 据 仓 库 流量 完 全 依 赖 人 工 读 取UA质量低下埋 点 前 环 节 缺 乏 规 范 、 需 求 评审 , 无 人 对 埋 点 数 据 质 量 负责 , 埋 点 上 线 较 为 随 意直播埋点数据事故、结算埋点数据事故、社区曝光埋点事故流量数据治理-痛点看数困难多 数 聚 合 流 量 需 重 新提J I R A单, 人 工 提 数 , 复 杂 如 特 别 位置C TR、 留 存 等 分 析 无 产 品 支持 流量数据治理-过程事前事中事后建立埋点规范,标准化坑位对象、资源对象、用户对象,核心三要素:SPM、Action、SCM与杭研共建落地easyTracker,先后在创新业务、主站落地http://easytracker.bdms.netease.com/重造埋点流程,规范数据需求(DRD)增加格式评审环节加强业务、开发之间的协作http://doc.hz.netease.com/pages/viewpage.action?pageId=243015414推动灰度埋点稽核,https://music.youdata.netease.com/dash/share/34310?id=4380&token=159496653634405aa57ca565f137b1dad6609流量数据服务自助化,与产品团队共建流产品“流量罗盘”,流量数据上easyFetch细化管理粒度,可追溯的唯一标识:坑位ID 流量数据治理-存量埋点坑位:1.落地4张DWD模型表2.落地3张DWS模型表3.流量罗盘数据产品90+用户模型:满足90%以上用户需求1.人肉梳理8000+埋点2.整理归一化为3000+坑位3.覆盖85%页面愚公移山 流量数据治理-新增埋点一.埋点规范化设计二.easyTracker埋点平台承载三.通过UDF和配置表,实现半自动化ETL,○DWD任务由原先的10点提前到6点,加工时长缩短4小时善假于物 流量数据治理-成果建立坑位埋点规范页面+ 子页面+ 模块+ 坑位改进埋点质量easyTracker上线建立埋点数据稽核机制半自动生成代码并优化简化开发流程配置方式提高代码运行效率盘活数据资产easyFetch自助查询流量罗盘2020年数据质量(双端埋点线下bug率)4.70%1.00%2.78%11.80%4.58%3.18%2.74%3.13%2.81%2.00%1.80%2.82%9.10%5.00%5.56%8.00%7.56%5.32%4.43%6.76%4.29%4.60%4.70%4.07%0.00%5.00%10.00%15.00%20.00%25.00%1月2月3月4月5月6月7月8月9月10月11月12月android端IOS端 数据资产沉淀-痛点数据孤岛(=>复用)应用层数据联通少,数据开发团队难以应付一旦出现的跨域、跨业务需求,特别如投放、push、创新业务域引流等横向业务,用户、资源圈层数据服务难度大01业务迭代频繁(=>高效)0203数据交付问题(=>质量)业务诉求V S 面对的问题及挑战高质量高效率高稳定数据开发过程对业务不透明,需求插入、延期、返工情况较为严重;需求缺乏设计、代码缺乏review、数据缺乏测试8.0改版、社区业务改版、K歌业务融合,需求较2019年增长超过90% 数据资产沉淀-目标有什么数据?在哪找?找谁?怎么取?需求人员社交数据活动数据付费数据播放数据数据仓库策划同学分析同学开发同学运营同学一份数据、一个出口、一个口径数仓的过程是“熵减”的过程,无序到有序无序到有序,构建“OneData” 云音乐数仓-主题抽象主题域划分,适合业务最重要,云音乐主要围绕参与者和内容来构建业务场景闭环过程-主题域划分 过程-层次划分 模型构建原则原则:高内聚、低耦合、强复用•业务相关性:行为归因将社交互动放一起•产出时间:流量和社交互动分开•回刷数据:运行方式解耦,增量和历史累计分开•粒度:轻度汇总尽可能保留多的退化维。维表属性不过多的退化到事实表中,只在最后大宽表进行合并•资源和存储平衡:1/7/28放在一张表中,去重人数和次数一起计算。 规范先行•模型层次调用规范•数据域命名规范•建表规范•临时表、正式表命名规范•原子指标、派生指标命名规范•数据格式规范•数据存储规范•作业流规范•枚举值规范•维度规范•词根规范•公共字段规范•计算指标来源规范•指标一致性建设规范•交付标准规范•...模型构建规范基于网易数帆模型设计中心落地建模规范 上线机制•网易数帆测试中心提供了上线前的数据形态探查和数据比对,数据问题上线前先暴露;•流程协作中心提供了上线的审核机制,对于核心模型,必须经评审验收后方可上线生产环境调度 数据资产沉淀-社区业务实践稳定的架构,大宽表每天6点前产出,提前3小时指标口径统一、充分质量测试easyFetch使用热度第一,临时需求爆减 数据资产沉淀-自助服务用户社区平台搜索流量服务业务1234录入元数据、创建数据模型产品easyFetch迭代,模型迁移easyFetch培训、运营群号用户习惯培养:模型咨询、指标咨询、数据咨询、使用咨询、问题排查用户对数仓模型、指标很难理解每周答疑大,最多一周20+次答疑,很花时间用户对数据质量存疑,经常要花大量时间校验数据和解决问题思考 050001000015000200002500030000K歌版权唱聊会员活动流量平台曲库社区声波心遇用户直播ea s y F e t c h使 用 增 长 趋 势各业务使用次数分布02040608010012002004006008001000120014002020/1/152020/1/242020/2/32020/2/122020/2/202020/2/282020/3/72020/3/152020/3/232020/3/312020/4/82020/4/162020/4/242020/5/22020/5/102020/5/182020/5/262020/6/32020/6/112020/6/192020/6/272020/7/52020/7/142020/7/242020/8/12020/8/92020/8/172020/8/262020/9/32020/9/112020/9/192020/9/272020/10/52020/10/132020/10/212020/10/292020/11/62020/11/142020/11/222020/11/302020/12/82020/12/162020/12/242021/1/12021/1/92021/1/172021/1/25次数人数 规范机制资产1.制定《云音乐数据仓库公共规范》,并推动落地2.抽象5大主题域,并在各主题域下扩展子主题3.设计数仓架构,明确各中间层的作用建模规范1.建立关键模型上线评审机制2.建立上线稽核机制,依托easyTest系统,输出稽核报告3.沉淀公共稽核逻辑&慢SQL特征,与数帆共建CICD体系评审稽核机制公共数据资产沉淀1.用户域,涉及11个角色,2000+用户标签2.资源域数据建设,涉及10个资源,1000+资源标签3.活动域数据建设,包含push全流程、H5活动,短信、私信建设中数据资产服务1.上线至今,共计400+用户,常用数据模型100+,周UV 180+,周PV7000+2.通过自助服务,改变数据交付方式,实现数据交付共享、通用性3.形成需求、开发、沉淀、再使用数据资产生产闭环自助服务数据资产沉淀-成果 T H A N K S合作伙伴: