行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

4-2 网易数帆在 DataOps 上的实践_opt

文化传媒 2022-11-02 DataFunSummit2022：现代数据栈技术峰会杜佛光

网易数帆在DATAOPS上的实践，主要围绕网易有数产品体系展开，旨在提升数据开发效率、规范数据管理、简化运维流程，最终实现数据生产力提升。

网易数据平台发展阶段：

2006年：分布式数据库、文件系统、搜索引擎支撑互联网2.0时代。
2009年：基于Hadoop做数据分析及运维。
2014年：大数据平台猛犸、网易有数上线，加速大数据规模化应用。
2017年：网易大数据正式对外商业化。
2018年：严选、考拉等业务开始数据中台构建，发布“全链路数据中台”解决方案。
2020年：提出“数据生产力”理念，倡导“人人用数据、实时用数据”。
2022年：发布数据治理和数据开发一体化“数据治理2.0”解决方案。

网易数帆定位：基础软件提供商，支持跨云战略，认为未来大数据软件市场将分层。

数据平台典型问题：

效率低：数据开发效率低、任务管理难。
规范差：烟囱式开发、指标口径混乱。
运维难：数据问题链路长、线上数据被污染。

有数DataOps价值：

文化：开发、测试、运维一体化，实现团队协作。
工具：容器、K8s、微服务、gitFlow等技术支持。
目标：持续集成敏捷交付，人人用数据时使用数据。

有数产品矩阵：

数据资产中心：数据集成、数据开发、数据测试、任务运维、数据标准、数据元、数据字典等。
数据门户：数据目录、数据检索、资产门户、数据血缘、数据地图。
数据开发：基于DataOps全生命周期，支持NDHHDFS/S3、Arctic（实时数据湖）、Yarn/K8s等。
数据治理：DataFusion产品矩阵。
数据应用：DataProduct产品矩阵。

企业目标愿景：

愿景：人人用数据，时时用数据。
DataOps：数据研发。
DataFusion：数据治理。
DataProduct：数据产品。

网易如何实践DataOps：

总体技术架构：底层集群、集群管理层、平台基础层、数据开发（DataOps）、数据治理（DataFusion）、数据应用。
组织实体概念：租户、集群、项目组、项目。
账号管理：项目账号、角色账号、个人账号、系统账号等。
权限管理：Access-Core、Ranger、MuskUDF等。
统一账号权限：组织实体权限账号映射。
元数据中心：元信息抽取、关联血缘、数据源catalog管理、元数据治理等。
逻辑数据湖-DataFabric：元数据注册、采集、扫描、发布、业务过程模型设计等。
数据传输：Flink、FlinkCDC、Spark、Distcp等，支持多模态多场景。
调度系统：ScheduleEngtine，提供丰富的任务节点、多模式流程控制、多场景认证等。
任务运维：任务血缘、任务统计、任务移交、数仓SLA、关键路径计算、甘特图、冻结池、加速器等。
CD/CD：编码测试编排代码审查发布审核部署上线，支持实时开发IDE、自动DDL生成、CodeReview等。
隔离级别：不同隔离级别满足不同客户需求。
数据沙箱：解决开发模式污染线上数据问题，实现代码与数据解耦，根据运行环境自动适配。
发布中心：编码测试代码审查发布审核部署上线，支持实时开发IDE、自动DDL生成、CodeReview等。
实时数据湖：stream批一体的DWD数据源，支持实时计算、流批链路统一、实时场景数据复用等。

实践效果：

知识沉淀和分享：《从数据中台到数据生产力:网易数据建设实践》出版中。
开源贡献。
企业用户：涵盖金融、教育、医疗、能源等多个行业。

总结：网易数帆通过DataOps实践，实现了数据开发效率提升、数据管理规范化、运维流程简化，有效解决了数据平台发展过程中的典型问题，推动了数据生产力提升，并获得了广泛的企业用户认可。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

6-1 网易数帆数据治理2.0实践分享 - 郑忆

商贸零售

DataFunSummit2022：数据治理在线峰会2022-09-15

hot

网易数帆云原生软件生产力实践集

商贸零售

网易2023-05-04

hot

网易数帆数据生产力实践案例精选集

商贸零售

网易2023-03-28

hot

网易基于DataOps的敏捷、高质量数据开发实践-郭忆

商贸零售

ArchSummit上海2023|全球架构师峰会2023-06-06

hot

3-5 数帆数据中台大数据任务调度系统的实践

商贸零售

DataFunSummit2022：大数据存储架构峰会2022-07-19