京东云原生跨域大数据平台落地实践
一、京东大数据平台概况
京东大数据平台是京东大数据业务的基础服务平台,提供一站式、自助式的大数据处理全流程解决方案,涵盖数据采集、存储、加工、分析、可视化、机器学习等功能。平台通过数据集中形成高效的数据开放,保障数据安全的前提下提供自助式服务,降低大数据消费门槛,助力京东实践以数据为驱动的业务变革。
二、京东云原生大数据平台建设背景和挑战
建设背景
- 大促期间在线业务需要大量采购机器应对高峰。
- 日常在线资源利用率低,存在资源浪费问题。
建设挑战
- 如何统一离线和在线的资源调度。
- 离线在线混合部署时如何保证在线业务不受影响,离线业务基本稳定。
- 跨机房资源共享后,跨机房数据访问如何避免影响在线任务。
三、京东云原生大数据平台落地实践
(1)计算混部资源池化
- 资源统一封装,屏蔽底层IaaS特性。
- 统一资源调度,上层应用系统无感使用。
- 按需调度,大促节点离线仅需借出数小时资源高效利用。
- 在线应用和离线计算具有资源互补特点,通过统一资源调度提升资源复用率。
混部架构
- K8S统一资源管控。
- JMR(混部资源管理)协调混部资源调度,结合单机弹性实现资源动态伸缩。
- 强资源隔离保障在线业务TP99。
混部关键技术
- 统一资源管理:K8S统一管理资源,计算服务容器化改造,混部调度器(JMR)协调资源分配和NM弹性伸缩。
- 单机弹性:安全水位,离线最小最大配额(min,max),动态调整,定制化驱逐策略。
- 运维优化:YARN Operator管理NM pod生命周期,基于Token方案实现NM节点注册验证。
- 资源隔离:联合K8S团队实现CPU隔离、网络QoS,保障在线业务TP99,改造HADOOP底层支持基于任务等级、流量类型等多种方式设置网络优先级。
混部资源动态规划
- 利用云原生架构实现峰值资源按需购买,购买资源每日占用时长不超过4小时。
- 资源水位线以上计算资源可以分批腾退,降低大数据平台机器成本。
- 基于作业分级,结合资源预测、数据血缘、作业性能诊断等能力,智能动态向云平台按需购买资源,降低离线机房常驻资源需求。
(2)跨域存储
机房感知和标签
- 拓扑管理:/region/cluster/rack。
- 机房感知:RPC携带机房信息,基于IP的机房查询。
- 标识定义:支持副本及EC,regionA:3:1, regionB:2:0, ttl:7200。
数据分发及流控
- 跨域补块独立处理,不影响原有同机房逻辑。
- 异步跨域更新器,结合跨域标签属性,实现切换接续补块。
- 支持高效的跨域数据共享。
- 跨域流控:跨域补块流控,读写优先客户端同机房DN,跨域读写流控,balancer机房内部均衡。
存储云原生
- 底层存储文件系统接入层。
- 接入层实现通用需求,包括权限、访问控制、数据生命周期、数据调度等。
- 接入层利用挂载能力实现弹性扩缩容。
- 数据调度实现不同挂载存储的数据迁移。
四、落地收益
- 618及双11大促期间动态调拨离线平台数十万核支撑在线系统流量高峰,节省大量采购成本。
- 日常期间,离线平台复用在线系统资源数十万核,利用率提升20%+,节省大量成本。
五、未来规划