登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
5-3 京东大数据存储跨域及分层实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
淘***
AI智能总结
查看更多
概况简介
京东数据平台整体架构包括采集层、计算存储层、工具层、服务层和应用层。
核心组件包括数据源、数据集成(离线、实时)、数据存储(HDFS、数据湖)、计算引擎(Hive/MR/Presto/Spark、Flink/SparkStreaming)、多维分析引擎(OLAP)、开发工具(Easy Label、Easy Real Time、Easy Model)、可视化大屏(JDV)、任务调度(Buffalo)等。
跨域存储
问题
:现有跨机房存储方案存在数据冗余(3+3=6副本)、元数据一致性由业务保障、跨机房流量不受控、不具备多机房容灾功能等问题。
架构
:通过整合主站大数据数据节点,实现“全量存储+全网拓扑=跨机房故障域”,支持大数据关键数据异地容灾及跨机房存储。
挑战
:单集群规模数W+、跨域补块与流控、跨域心跳和块汇报方案。
优势
:强一致性(全局文件一致性)、复用原理(自主跨机房补块)、易迁移(数据异动成本低)、高可用(支持跨机房切换)。
架构特点
:跨机房补块独立处理、异步跨域更新器、支持高效的跨域数据共享。
跨域数据流
:采用异步上行、同步下行的数据同步方式。
拓扑与机房感知
:通过RPC携带机房信息、基于IP的机房查询,实现机房感知和拓扑管理。
跨域标识
:支持副本及EC的标识定义,通过元数据变更(XATTR、InodeProto、块属性)实现跨机房数据放置。
跨域补块及流控
:跨域补块独立处理,异步跨域更新器结合跨域标签属性实现切换接续补块,支持跨域数据共享。
跨域流控
:跨域补块流控和跨域读写流控,优先客户端同机房DN,通过balancer实现机房内部均衡。
分层存储
问题
:冷热数据未区分、不同硬件类型未区分、数据治理推进困难。
简介
:通过SSD、HDD高密存储实现分时分层存储加速和冷存归档,支持逻辑子集群划分。
使用场景
:分时热加速、冷数据降本、逻辑子集群。
架构
:核心模块包括分层策略配置、标签管理器、数据分布校验器、存量数据满足器、访问监控器等。
核心设计
:基于标签配对实现数据与节点绑定,支持目录标签和节点标签,支持新增数据及存量数据,通过虚拟多拓扑树实现数据迁移和转换。
虚拟多拓扑树
:通过标签配对实现数据与节点绑定,支持多标签和标签降级,复用内部节点实现虚拟多拓扑树,逐级向上汇总虚拟多拓扑状态。
你可能感兴趣
03-云原生跨域大数据架构落地实践-吴维伟
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
5-3 翼支付大数据 BI 分析平台建设实践
信息技术
DataFunSummit2022:多维分析架构峰会
2022-07-18
中国移动IT大数据运维域数智运维能力实践
中国移动信息技术中心
2023-04-29
京东大数据安全与分布式权限体系的探索与实践
京东
2021-08-28
DB-GPT在京东零售大数据平台的落地实践
信息技术
DB-GPT
2024-07-06