大数据的历史与未来发展
大数据发展经历了启蒙阶段(20世纪90年代数据仓库出现)、拉开序幕阶段(2005年Hadoop诞生)和技术变革阶段(2014年Flink诞生)。未来发展趋势包括:1)批处理向近实时处理转变,解决数据更新缓慢问题;2)智能化发展,通过Data Fabric实现主动、智能的数据治理,推动NoETL实践;3)开源产品向商业化产品过渡,商业化产品凭借易用性和服务优势将获更多企业接受;4)云上产品和国产化产品成为重要方向。
认识平台型数据产品经理
数据产品是降低用户数据使用门槛、提升数据价值的产品,通常包括数据采集清洗、存储、发布、分析和挖掘等环节。数据产品经理负责设计、维护和优化数据产品,细分方向包括平台型、分析型/应用型和策略型/算法型。平台型数据产品经理聚焦数据采集、清洗、存储、发布环节,核心能力包括通用能力(需求洞察、方案设计、项目管理)、专业思维(统一标准、分层设计、数据共享、价值驱动)和专业能力(技术知识、知识体系、工具使用)。
平台型数据产品经理的核心能力
技术知识
掌握Hadoop生态是基础,包括数据获取工具Sqoop、Flume,核心组件HDFS、YARN、MapReduce、Spark,数据分析工具Pig、Impala、Hive,数据探索工具Cloudera Search、Hue,工作流系统Oozie和NoSQL数据库HBase等。
知识体系
需理解元数据(业务元数据和技术元数据)、数据指标、ETL/ELT、数据资产、数据中台、数据集市和数据服务等核心概念。了解离线数据平台(包含数据采集、开发、调度、分层)和实时数据平台(包含实时采集、消息中间件、流计算框架、存储)的整体架构。
工具使用
熟悉Hadoop生态工具如Pentaho(Kettle)、Informatica、DataX、DataWorks、FineDataLink和DataPipeline等,根据企业需求选择开源或商业、云上或私有化、国内或国外工具。
离线数仓构建的流程
离线数仓建设可采用自上而下(范式建模)或自下而上(维度建模)两种方法,分别适用于不同资源和性能需求场景。构建流程包括需求调研、梳理指标、分层建模、数据开发、数据校验和API开发等环节。