AI智能总结
基于数据驱动的分布式治理 王慧祥字节跳动全域数据治理负责人 目录 •机遇与挑战•字节数据治理理念•分布式数据治理架构及实践•数据驱动治理•智能化治理探索•总结&未来展望 01 机遇与挑战 数据治理挑战 规范“人”的动作难度大 治理效益与业务影响的矛盾 治理涉及的组织和管理难度大 缺乏适配性强的产品工具 业 务 系 统 、 生 产 流 程 改 造 影响 业 务需 求 难 统 一 , 全 局 策 略 难 落保 障 治 理 大 目 标 , 无 法 顾 及业 务 个 性 需 求R O I评 估 : 治 理 收 益 、 时 间周 期 、 业 务 影 响 角 色 多 、 范 围 广 、 链 路 长治 理 目 标 对 齐 、 管 理 、 跟 进难 度 大组 织 越 复 杂 , 数 据 治 理 难 度越 大 人 员 能 力 参 差 不 齐 , 对 齐 目标 和 优 先 级 困 难治 理 操 作 依 靠 人 , 规 范 对 人的 偏 差 操 作 容 忍 度 低组 织 文 化 差 异 , 数 据 治 理 落地 的 方 法 、 挑 战 、 成 效 各 异 现 状 、 问 题 客 观 工 具 缺 失无 全 局 视 角 工 具 , 直 接 跳 入治 理 细 节跨 部 门 、 跨 系 统 治 理 目 标 对齐 、 协 商 缺 乏 治 理 全 流 程 工具平 台 工 具 不 够 灵 活 , 只 能 解决 通 用 治 理 问 题 字节治理挑战 文化与效率、业务第一 规 模 大 业 务 要 求 业 务 场 景 丰 富• 互 娱• 电 商• 商 业 化海 量 数 据 多 业 务 齐 发 展业 务 快 速 发 展快 速 响 应 业 务 需 求敏 捷 迭 代 数 据 驱 动 O K R 文 化 每 个 人 都 可 参 与 规 划 与 策 略 制 定 分 解主 动 寻 找 实 现 路 径 互 相 对 齐组 织 快 速 前 进 资 产 数 据 盘 点 , 体 系 建 设• 资 产 元 数 据 , 特 征 、 标 签• 资 源 使 用 , 存 储 、 计 算• 工 具 , 操 作 及 收 益经 验 数 据 反 哺 , 算 法 推 荐 高 效 治 理 影 响 大 没 有 集 团 层 面 的 数 据 治 理 委 员 会各 部 门 采 取 自 决 策 自 治 的 数 据 治 理 模 式决 策 与 执 行 效 率 很 高 • 数 据 延 迟• 质 量 问 题• 数 据 生 命 周 期 02 字节治理理念 分布式数据自治 传统式治理 分布式治理 分布式数据治理平台 业 务 影 响 小 、 治 理 效 率 高 、 适 配 性 强 适配性强-产品建设覆盖治理全链路 沉淀各业务治理经验,提升治理效率 业务影响小-灵活的自治模式 •从 治 理 规 划 到 执 行 诊 断 与 复 盘 全 流 程 进 行 治 理 把控 。 集 成 多 种 治 理 场 景 - 稳 定 性 、 质 量 、 安 全 、成 本 、 报 警•各 模 块 可 独 立 使 用 , 按 需 组 合 , 满 足 不 同 业 务 场景 下 的 数 据 治 理 需 求•产 品 提 供 完 整 的 开 放 能 力 , 业 务 根 据 自 身 特 性 和发 展 阶 段 进 行 接 入 •产 品 辅 助 业 务 自 驱 , 沉 淀 业 务 经 验 规 则 化 、 策略 化 、 自 动 化 进 行 持 续 的 数 据 治 理•低 门 槛 与 算 法 推 荐 : 业 务 自 驱 进 行 分 析 与 诊 断能 力 , 算 法 赋 能 治 理 提 效•提 供 自 上 而 下 的 规 划 式 治 理 和 自 下 而 上 的 响 应式 治 理 •治 理 是 不 同 业 务 与 阶 段 的 实 践 , 在 规 范 与组 织 上 应 足 够 灵 活 , 业 务 可 自 身 发 展 阶 段制 定 治 理 内 容 , 自 行 对 齐 与 制 定 部 分 治 理标 准 , 互 相 对 齐 形 成 自 驱 组 织•“ 一 个 业 务 单 元 内 的 数 据 有 效 性 提 升 为 数据 治 理 的 范 围 和 目 标 ” 分布式数据治理平台-核心能力 03 分布式数据治理架构及实践 分布式数据治理-体系建设 分布式数据治理-治理动线 分布式数据治理-推动者动线 分布式数据治理-实施者动线 分布式数据治理-创建方案&目标 分布式数据治理-治理实施&操作 集 中 式 : 平 台 集 中 建 设 规 则 数 据 及 治 理 手 段 默认规则 •研 发 人 力 投 入 成 本 高•很 难 匹 配 所 有 业 务 的 需 求 存储、计算、质量、安全 治理场景 自定义元数据、规则逻辑个性化需求 分 布 式 : 数 据 开 放 、 规 则 开 放 、 治 理 操 作 开 放 •满 足 个 性 化 诊 断 治 理 需 求•规 则 迭 代 稳 定 后 沉 淀 到 平 台 , 实 现 共 赢•操 作 开 放 , 业 务 自 定 义 组 合 p i p e l i n e , 满 足 精 细 化 治 理 自助接入方法、灵活定义参数精细化治理 分布式数据治理-治理实施&操作(开放性建设) 分布式数据治理-收益统计&结果验收 收益数据自动化收集 计算 思路:操作实时同步、收益离线更新、埋点旁路打标 分布式数据治理-平台架构 04 数据驱动治理 数据驱动治理 如何高效定位资产问题 盘点资产数据,构建完备的元数据组织方式,通过特征、标签描述元数据,根据不同场景设计治理策略(存储、计算等) 如何高优治理业务资产数据 构建全公司的治理评估体系,提炼核心资产问题项通过对资产打标,可快速定位高优待治理资产 如何快速完成资产治理 挖掘、沉淀并复用治理经验通过往期治理经验,并对行为埋点数据分析,智能推荐治理目标 数据驱动-资产体系建设 01.数 据 分 析 与 展 示 能 力 , 解 释 性 强 , 功 能 丰 富 02.根 据 数 据 特 征 划 分 不 同 主 题 域 , 提 供 稳 定 可 靠的 维 度 、 指 标 等 03.全 链 路 保 障 数 据 采 集 , 做 到 数 据 无 丢 失 、 可 监控 、 质 量 稳 定 04.从 源 头 对 资 产 数 据 打 标 , 血 缘 脉 络 清 晰 , 可 追踪 、 可 优 化 数据驱动-评估体系建设 从完备的数据域建立资产评估体系,将资产问题具像化,并提炼高优问题项根据资产类型进行分数加权计算,形成健康分,在公司层面达成共识,进行推广运行 数据驱动-规则体系建设 生 命 周 期 永 久 / 近 7 天 产 出 为 空 / 暴 力 扫描 任 务生 命 周 期 x x x 天 / 近 x x x 天 产 出 为 空 •统计类规则 & 挖掘类规则 近 9 0 天 无 访 问 表 / 数 据 倾 斜 任 务相 似 库 表 / 相 似 任 务 数据驱动-智能提效 TTL推荐 •访 问 热 度•表 分 层•O D S•D W D•表 类 型•全 量 表•增 量 表 05 智能化治理探索 思考:数据治理智能化 智能化治理实践-基于血缘和热度的推荐 热度数据作为判断数据访问情况的有效输入,其数据的精细化可以为更为细致、激进的治理提供数据支撑。 数据维度广,完善度高,来源可覆盖全公司 处理流程统一,可明确访问次数概念 最终结果可衡量,有效提升业务治理效率 智能化治理实践-任务参数自动优化 根据作业的特点,自动推荐最合适的参数 Spark Engine:shuffle 溢写分裂shuffle 分级限流oom 自适应blacklist 功能优化 Rule Engine:资源优化规则Shuffle优化规则任务读写优化规则 智能化治理实践-其他算法探索 06 总结 07 未来展望 未来展望 行业模版沉淀 开放生态打造 行业模版电商、互娱治理模版治理流程治理驾驶舱、治理运营、治理策略治理能力原子化行业治理规则、治理操作 接入 关于我们 进入火山引擎DataLeap官网 获取更多技术干货、活动信息 了解更多产品信息