AI智能总结
腾 讯 欧 拉 如 何 打 造 数 据自 治 系 统 虎兴龙腾讯数据工程专家,研发组长,负责腾讯欧拉平台技术 目录Contents 数据发现 欧拉平台的主旨 感受:生产、使用成本高 表现:脏、乱、差 原因:信息熵大、信息量小 欧拉:从业务数据视⾓出发,聚焦可信数据资产沉淀和交付 数仓、指标不可信的典型案例 为什么数仓表会乱:缺乏体系性工具来保证统一规范和模型 1.三张ADS表的加工逻辑不统一,导致总“曝光次数”对不齐2.从ODS->ADS,所有的表物化存储,数据冗余、字段冗余非常严重,导致数仓存储成本高,物化导致数据回溯产生大量不一致3.ADS、DWS表之间的依赖错综复杂,同层依赖,甚至有下层依赖上层的情况4.同样的表结构在不同的业务域、主题域重复建设 关键思路:完善企业数据模型构建与管理 数据建模是进⾏数据组织、映射的过程,通常通过⼀系列简易符号、视图、代码、⽂本等表达数据关系、流向。 关键思路:提升物理建模效率,DataOps数据⼯程软件⼯程化 !"#$%&'()!"*+%,+-.!"CR%CI%CD/0!"12345CMDB612789:;<!"=>?,%@0()5AB 如何实现数仓建模CRCD 三个主要问题:1、数据开发中有⼤量的作业编排、调度配置,如何CR 2、已经有US、TDW、IDEX、Venus,⼯蜂,如何打通?欧拉如何设计减少⽤户迁移成本3、数据规范如何在开发过程中落地 数据⼯场的编码抽象 纯SQL代码的缺点: 1.代码重复度⾼、复⽤率低2.可读性、可测性⽐较差3.⽆法实现流程控制 数据⼯程的代码怎样DRY: 1.Python&SQL实现流程控制2.Python实现类似宏能⼒3.模块化、公共脚本引⽤ 模型重复检测:表完全相同且表的关联关系(leftjoin|innerjoin)完全相同且表的过滤条件完全相同 产品效果:⼀站式建模开发、测试发布、质量运维、版本管理能⼒ 产品效果:⼀站式建模开发、测试发布、质量运维、版本管理能⼒ 指标治理⾯临的主要问题 •难以复用,指标被重复、分散地定义•同名不同义、同义不同名•找指标困难、缺少有效的发现机制•难以采用版本控制、CICD等工程实践•缺少有效的认证机制,使用方缺乏信心 什么是Headless 指标中台与敏捷分析 1、数据分析效率的提升是受多因素影响的:找数据、算数据、确认数据、分析数据….. 2、广泛意义上的指标、维度是无法穷尽的,敏捷的数据分析倡导即席定义指标、维度,即时分析 所以:指标中台的产品定位:规范化的指标生产和统一服务,收敛指标口径,提升分析效率,再这个目标的前提下最大化指标定义的敏捷性,但敏捷的天花板一定不如敏捷分析高 敏捷不一定就高效,是与场景有关的 如何标准化指标定义 统计周期 业务限定 维度 度量 最近7天timestamp >=1674835200andtimestamp <=1675439999 体育类category=sport 目前已对接智能决策平台、datatalk、tab、tmap 通过腾讯云网关暴露指标元数据api、指标查询api 指标元数据管理•通过指标模型实现指标标 准化、规范化生产•统一管理指标口径•将多个指标组成指标集、提供物化加速能力•提供指标认证机制•指标权限控制 物化管理•自动解析来源表依赖 •自动创建物化计算任务•提供例行调度、回溯等能力•对接多种存储引擎满足不同查询需求 查询服务•支持trpc、http、MQL •动态路由、缓存加速 tMetric物化加速⽅案 数据发现:完备的全域数据知识图谱 完备的数据资产体系对AIforBI的可能性 基于chatGPT“渐进式”的数据分析场景,很近好像⼜很远? 问:手Q本周用户活跃情况怎么样? 答:wau相比上周增长xx,周活跃天x天问:wau上涨主要是什么因素导致的?答:上涨维度拆解归因如下:xxxxxx问:wau变化和手Q人均聊天时长、一度好友数有什么关联关系?答:xxx问:手Q指标变化可能和哪些近期社会实践有关系?答:xxxx 完备的数据资产体系对未来数据分析效率提升的可能性 假设直接调⽤⼤模型的API,增强分析的流程应该是怎样的? Thanks