登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
5-3 京东大数据存储跨域及分层实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
淘金 曹艳平
概况简介
京东数据平台整体架构包括采集层、计算存储层、工具层、服务层和应用层。
核心组件包括数据源、数据集成(离线、实时)、数据存储(HDFS、数据湖)、计算引擎(Hive/MR/Presto/Spark、Flink/SparkStreaming)、多维分析引擎(OLAP)、开发工具(Easy Label、Easy Real Time、Easy Model)、可视化大屏(JDV)、任务调度(Buffalo)等。
跨域存储
问题
:现有跨机房存储方案存在数据冗余(3+3=6副本)、元数据一致性由业务保障、跨机房流量不受控、不具备多机房容灾功能等问题。
架构
:通过整合主站大数据数据节点,实现“全量存储+全网拓扑=跨机房故障域”,支持大数据关键数据异地容灾及跨机房存储。
挑战
:单集群规模数W+、跨域补块与流控、跨域心跳和块汇报方案。
优势
:强一致性(全局文件一致性)、复用原理(自主跨机房补块)、易迁移(数据异动成本低)、高可用(支持跨机房切换)。
架构特点
:跨机房补块独立处理、异步跨域更新器、支持高效的跨域数据共享。
跨域数据流
:采用异步上行、同步下行的数据同步方式。
拓扑与机房感知
:通过RPC携带机房信息、基于IP的机房查询,实现机房感知和拓扑管理。
跨域标识
:支持副本及EC的标识定义,通过元数据变更(XATTR、InodeProto、块属性)实现跨机房数据放置。
跨域补块及流控
:跨域补块独立处理,异步跨域更新器结合跨域标签属性实现切换接续补块,支持跨域数据共享。
跨域流控
:跨域补块流控和跨域读写流控,优先客户端同机房DN,通过balancer实现机房内部均衡。
分层存储
问题
:冷热数据未区分、不同硬件类型未区分、数据治理推进困难。
简介
:通过SSD、HDD高密存储实现分时分层存储加速和冷存归档,支持逻辑子集群划分。
使用场景
:分时热加速、冷数据降本、逻辑子集群。
架构
:核心模块包括分层策略配置、标签管理器、数据分布校验器、存量数据满足器、访问监控器等。
核心设计
:基于标签配对实现数据与节点绑定,支持目录标签和节点标签,支持新增数据及存量数据,通过虚拟多拓扑树实现数据迁移和转换。
虚拟多拓扑树
:通过标签配对实现数据与节点绑定,支持多标签和标签降级,复用内部节点实现虚拟多拓扑树,逐级向上汇总虚拟多拓扑状态。
你可能感兴趣
03-云原生跨域大数据架构落地实践-吴维伟
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
5-3 翼支付大数据 BI 分析平台建设实践
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-18
中国移动IT大数据运维域数智运维能力实践
商贸零售
中国移动信息技术中心
2023-04-29
京东大数据安全与分布式权限体系的探索与实践
商贸零售
京东
2021-08-28
DB-GPT在京东零售大数据平台的落地实践
商贸零售
DB-GPT
2024-07-06