登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
7-1 现代数据治理: 网易有数数据治理演进_opt
信息技术
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
等待花开
网易有数数据治理演进历程及成效:
网易大数据发展历程
:
2006年:以分布式数据库、文件系统和搜索引擎支撑互联网2.0产品。
2009年:基于Hadoop开展数据分析和运维。
2014年:上线大数据平台猛犸、网易有数,加速大数据规模化应用。
2017年:大数据业务对外商业化。
2018年:多个业务(严选、考拉等)开始数据中台建设,发布全链路数据中台方案。
2020年:提出“数据生产力”理念,倡导“人人用数据、时时用数据”。
2022年:发布数据治理和数据开发一体化“数据治理2.0”解决方案。
数据治理面临的挑战
:
指标口径不一致:平均每周10个数据质量问题,影响数据使用方信任。
缺乏建模规范:需求交付慢(平均一周),查询效率低(月范围59秒,年范围316秒)。
数据重复建设:超过50%的表冗余,数据量线性增长。
资源使用不合理:投入产出低,成本指数增长,缺乏精细化成本管理。
数据安全问题:开发模式权限过大,HDFS回收站绕过,权限管理不友好。
数据治理解决方案及成效
:
模型规范治理
:
建立模型设计度量标准,跨层引用率30.8%,模型复用率2.4%。
需求交付速度提升至3天,年范围查询时间缩短至21秒。
成本优化
:
核算任务、查询、表资源消耗,累计下线数据存储69P。
为云音乐、严选优化表结构,传媒节省38%计算资源。
数据质量跟踪体系
:
全链路监控,智能基线运维,任务影响分析。
案例:任务依赖错误提前预警,避免事故。
数据安全能力
:
线上模式个人keytab运行,公共回收站,数据脱敏加密。
行级、队列权限管理,自定义审批流程。
数据治理一体化方案
:
开发治理一体化
:
仓内仓外统一治理,数据资产门户,健康度治理闭环。
持续运营:资产账单、红黑榜、治理活动。
资产治理闭环
:
多维度健康度评估(成本、标准、质量、安全、价值)。
持续优化工具:推荐下线、生命周期管理。
数据文化建设
:
数据分析/治理/可视化大赛,工程师资格认证。
组织建设:数据治理部,业务部门数据治理专员,数据治理分数红黑榜。
研究结论
:
研发治理一体化可防患于未然,提升数据出厂质量。
关注数据消费,形成治理改进闭环,提升数据价值。
你可能感兴趣
7-1 虚拟人视觉技术的创新应用 - 丁彧 网易伏羲
商贸零售
DataFunSummit2022:数字人技术峰会
2022-08-30
深度学习模型架构的演进和趋势_单瀛_opt(1)
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19
4-2 网易数帆在 DataOps 上的实践_opt
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
5-1 现代数据栈中的消费层 - BI+AI 产品的演进
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
6-1 网易数帆数据治理2.0实践分享 - 郑忆
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15