登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
2-2 小米大数据存储服务的数据治理实践 - 李经纶
信息技术
2022-09-15
DataFunSummit2022:数据治理在线峰会
LIHUYUN
小米存储服务治理实践总结
朴素数据治理
核心观点
:将数据治理等同于成本治理,通过组织架构调整、服务盘点和并行优化实现。
关键措施
:服务负责人认领优化任务,盘点成本Top10服务和Top集群。
优点
:目标清晰、简单高效,适合业务快速发展期,人力消耗少。
问题
:不可观测(缺乏实时成本展示和反馈)、各自算账(数据口径不统一)、分工不合理(底层研发与业务沟通困难)。
用大数据治理大数据
核心观点
:通过数据资产化实现可衡量,提升治理效率。
关键措施
:建立元仓统一数据口径,定义特征规则进行元仓扫描,产品化资产健康分和治理建议。
治理成果
:主机数减少23.8%,主机成本降低38.9%。
HDFS治理实践
方案选型
:因海外EBS昂贵,采用全球统一架构。
关键措施
:文件转对象存储(ObjectFile),治理服务标记文件类型并记录,Transform将BlockFile转为ObjectFile。
优化策略
:通过Block Token带宽控制、Transform重试和短路读提升读性能。
治理成果
:48.45%数据可转温或转冷。
HBase治理实践
技术
:采用HDD磁盘、HDFS Tiering转存到对象存储、HDFS EC和高密度机器。
治理场景
:
场景一
:一致性要求高的备集群,采用离线集群Tiering、HFile对象存储和WAL 3副本异步转对象存储。
场景二
:可用性要求高的备集群,采用HFile EC存储。
场景三
:在线表时序数据,按时间戳划分冷热,以HFile为粒度冷备,海外Tiering,国内HDD。
场景四
:迁移到离线表(7天只写不读)。
场景五
:归档删除表(7天无读无写,离线表一年无读无写)。
治理成果
:缩容16.6%,解决无血缘关系导致的无用表和冷热分离问题。
你可能感兴趣
2-2 基于云上对象存储的网易大数据平台应用实践
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
2-3 大数据存储加速与服务化在Shopee的实践
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
6-2 金融数据治理实践与思考 - 李燕_东北证券
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15
张耀东- Kyuubi 在小米大数据平台的应用实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06