您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:数据产品在线峰会]:刘明刚-B站一站式大数据集群管理平台 - 发现报告

刘明刚-B站一站式大数据集群管理平台

AI智能总结
查看更多
刘明刚-B站一站式大数据集群管理平台

刘明刚/资深工程师 DataFunSummit#2024 目录 背景介绍 集群管理 元仓建设 智能运维 定制化Manager 未来展望 01 背景介绍 BMR的诞生 BMR发展阶段 l聚焦环境、配置标准化l满足核心组件的快速发布 阶段一:求生存 l建设元仓、沉淀数据l服务组件全面覆盖l场景化建设 阶段二:追温饱 l拥抱云原生、扩展容器化管理能力l元仓应用l智能运维(巡检平台、故障自愈) 阶段三:奔小康 l智能运维升级(故障预测、智能问答)l定制化Manager 阶段四:共富裕 BMR-产品蓝图 l迭代?安全变更?高效稳定Ø用BMR,构建、发布、验收一站式l查问题?高效稳定Ø用BMR,预警、诊断、自愈、定位一站式l资源不够?降本稳定Ø用BMR,Quota、用量清晰透明一站式 02 集群管理 BMR-集群管理 常见操作扩容、缩容、重启、升级等迭代操作 核心能力(高效&&安全生产) l可视化流程编辑能力l安全变更、变更防御l服务优雅的下线l自动适配异构机器/环境l节点、服务生命周期管理l跨组件依赖管理 BMR-集群管理 降本利器-潮汐混部l错峰出行 l弹性伸缩l分级保障 1,000+节省机器数60,000+总核数收益显著 03 元仓建设 BMR-元仓建设 l数据互通l元数据一致性l历史回放 BMR-元仓应用 概览一眼看尽“黄金指标” BMR-主机诊断 l覆盖100+硬件故障、异常日志、异常监控指标l当前故障、历史故障一目了然l故障趋势清晰可见 元仓应用-任务诊断 沉淀20+诊断类型 l失败分析l耗时分析l报错分析l资源分析l效率分析 04 智能运维 BMR-智能运维 l巡检系统:主动发现风险,自助诊断l故障自愈:智能分析诊断,故障自动恢复l智能问答:让真相直达用户 巡检平台-应用场景 l主机硬件故障l操作系统风险l核心配置错误l组件部署不符合预期 巡检平台-产品能力 l巡检项管理Ø内置10+个巡检项 Ø巡检项快速创建、修改、删除 故障自愈-变被动为主动 故障自愈-产品能力 智能问答-直达用户 利用元仓数据+LLM技术 05 定制化Manager BMR-定制化Manager lFlinkManager lSparkManager ØFlink任务管理ØFlink版本管理Ø模板管理Ø节点管理Ø测试管理 ØSpark任务管理ØSpark版本管理ØSpark迭代管理Ø测试管理 BMR-KafkaManager lTopic管理 ØTopic读写限流ØTopic治理ØTopic回收站管理ØLeader-1修复Ø重置consumeroffsetØPartitionReassign l集群管理 Ø容量、Quota管理Ø负载分析ØLable管理Ø磁盘管理Ø多机房管理 BMR-SparkManager Ø多版本管理Ø精确到任务Ø快速回滚 Ø按任务灰度Ø变更防御Ø打通测试平台ü基准测试ü性能测试ü数据质量验证 06 未来展望 未来展望 l完善大数据测试平台、打通变更和测试l加强变更管控l继续增强容量管理、风险预测、自愈能力l探索更多大模型的应用场景 THANKS