网易数帆在DATAOPS上的实践,主要围绕网易有数产品体系展开,旨在提升数据开发效率、规范数据管理、简化运维流程,最终实现数据生产力提升。
网易数据平台发展阶段:
- 2006年:分布式数据库、文件系统、搜索引擎支撑互联网2.0时代。
- 2009年:基于Hadoop做数据分析及运维。
- 2014年:大数据平台猛犸、网易有数上线,加速大数据规模化应用。
- 2017年:网易大数据正式对外商业化。
- 2018年:严选、考拉等业务开始数据中台构建,发布“全链路数据中台”解决方案。
- 2020年:提出“数据生产力”理念,倡导“人人用数据、实时用数据”。
- 2022年:发布数据治理和数据开发一体化“数据治理2.0”解决方案。
网易数帆定位:基础软件提供商,支持跨云战略,认为未来大数据软件市场将分层。
数据平台典型问题:
- 效率低:数据开发效率低、任务管理难。
- 规范差:烟囱式开发、指标口径混乱。
- 运维难:数据问题链路长、线上数据被污染。
有数DataOps价值:
- 文化:开发、测试、运维一体化,实现团队协作。
- 工具:容器、K8s、微服务、gitFlow等技术支持。
- 目标:持续集成敏捷交付,人人用数据时使用数据。
有数产品矩阵:
- 数据资产中心:数据集成、数据开发、数据测试、任务运维、数据标准、数据元、数据字典等。
- 数据门户:数据目录、数据检索、资产门户、数据血缘、数据地图。
- 数据开发:基于DataOps全生命周期,支持NDHHDFS/S3、Arctic(实时数据湖)、Yarn/K8s等。
- 数据治理:DataFusion产品矩阵。
- 数据应用:DataProduct产品矩阵。
企业目标愿景:
- 愿景:人人用数据,时时用数据。
- DataOps:数据研发。
- DataFusion:数据治理。
- DataProduct:数据产品。
网易如何实践DataOps:
- 总体技术架构:底层集群、集群管理层、平台基础层、数据开发(DataOps)、数据治理(DataFusion)、数据应用。
- 组织实体概念:租户、集群、项目组、项目。
- 账号管理:项目账号、角色账号、个人账号、系统账号等。
- 权限管理:Access-Core、Ranger、MuskUDF等。
- 统一账号权限:组织实体权限账号映射。
- 元数据中心:元信息抽取、关联血缘、数据源catalog管理、元数据治理等。
- 逻辑数据湖-DataFabric:元数据注册、采集、扫描、发布、业务过程模型设计等。
- 数据传输:Flink、FlinkCDC、Spark、Distcp等,支持多模态多场景。
- 调度系统:ScheduleEngtine,提供丰富的任务节点、多模式流程控制、多场景认证等。
- 任务运维:任务血缘、任务统计、任务移交、数仓SLA、关键路径计算、甘特图、冻结池、加速器等。
- CD/CD:编码测试编排代码审查发布审核部署上线,支持实时开发IDE、自动DDL生成、CodeReview等。
- 隔离级别:不同隔离级别满足不同客户需求。
- 数据沙箱:解决开发模式污染线上数据问题,实现代码与数据解耦,根据运行环境自动适配。
- 发布中心:编码测试代码审查发布审核部署上线,支持实时开发IDE、自动DDL生成、CodeReview等。
- 实时数据湖:stream批一体的DWD数据源,支持实时计算、流批链路统一、实时场景数据复用等。
实践效果:
- 知识沉淀和分享:《从数据中台到数据生产力:网易数据建设实践》出版中。
- 开源贡献。
- 企业用户:涵盖金融、教育、医疗、能源等多个行业。
总结:网易数帆通过DataOps实践,实现了数据开发效率提升、数据管理规范化、运维流程简化,有效解决了数据平台发展过程中的典型问题,推动了数据生产力提升,并获得了广泛的企业用户认可。