您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[观远数据]:观远数据运维指南-2021Q4 - 发现报告

观远数据运维指南-2021Q4

2023-08-25观远数据徐***
观远数据运维指南-2021Q4

版权所有©杭州观远数据有限公司 2021。 保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他观远数据商标均为杭州观远数据有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受观远数据商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,观远数据对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 目录 导言............................................................................................................................................................3适用范围....................................................................................................................................................3 基础篇........................................................................................................................................................4 一、 系统架构说明..................................................................................................................................4 1.1 数据分析系统............................................................................................................................41.2 运维系统...................................................................................................................................51.3 Docker&Kubernetes................................................................................................................... 5 二、 运维操作常见指令介绍..................................................................................................................6 2.1 Kubectl Get Nodes...................................................................................................................... 62.2 Kubectl Get Svc/Kubectl Get Service..........................................................................................72.3 Kubectl Get Pods........................................................................................................................ 7 问题排查篇............................................................................................................................................... 9 一、 常见系统问题说明..........................................................................................................................9 1.1 自助处理类问题....................................................................................................................... 91.2 协同处理类问题..................................................................................................................... 12 2.1 服务重启................................................................................................................................. 132.2 Docker 重启..............................................................................................................................13 三、 系统关闭与重启............................................................................................................................13 3.1 服务关闭................................................................................................................................. 133.2 服务重启................................................................................................................................. 14 日常维护篇............................................................................................................................................. 16 一、Web 运维监控系统说明................................................................................................................. 16 1.1 Kubernetes Resources Usage Monitoring.................................................................................... 171.2 Kubernetes Cluster Monitoring................................................................................................... 171.3 Guandata.................................................................................................................................... 18 二、云巡检..............................................................................................................................................20 结语..........................................................................................................................................................22 导言 观远数据为广大企业客户提供一站式智能分析平台。随着业务的开展,平台的数据量与用户量也不断增大,因此平台的日常维护与问题排查十分重要。本手册详细描述了运维操作、问题排查、日常维护等主要方法,指导运维工程师等人员对平台进行监控和维护,保障业务分析正常进行。 适用范围 使用观远数据一站式智能分析平台(私有化部署)的运维工程师等技术人员。 基础篇 一、系统架构说明 观远数据的运行系统分为数据分析系统和运维系统,两个系统中所有的运行组件都基于 Docker 搭建,并由 Kubernetes 管理。观远数据分析平台通用版技术架构如图所示: 下文将分别介绍系统中的各个模块功能: 1.1 数据分析系统 Spark Spark 是基于内存的分布式计算框架,与 Delta Lake 配合作为数据分析系统核心,处理针对 Delta Lake 日常的数据增、删、改、查操作。 Spark-Job-Engine Spark-Job-Engine 是基于 Spark 的服务系统,提供了一个用于提交和管理 SparkJob的 RESTful 接口。 Delta Lake Delta Lake 是存储数据的主要组件,以分布式数据存储,支持列式存储与增量更新。 直连与实时数据引擎 直连与实时数据引擎是指通过直连数据库的方式,将数据查询计算逻辑下推至数据库中执行。其中实时数据引擎需额外部署 ClickHouse 组件。 Guandata BI Server Guandata BI Server 是后台服务组件,将前端查询操作转化为 SparkJob 提交到Spark-Jobserver。 Guandata Admin Guandata Admin 是管理控制台组件,可进入运维系统,创建域,进行 Schema 升级。 Guandata Web/H5 Guandata Web/H5 是前端组件,与 Guandata