登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
1-1 从数据集成到现代数据栈
信息技术
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
何杰斌
数据集成与现代数据栈
数据集成
定义
:数据集成是将多个分散的数据源在逻辑或物理上集中,解决数据孤岛问题,提供统一数据视图以支持决策。
历史
:最早可追溯至1991年明尼苏达大学构建的IPUMS系统,采用数据仓库方法实现数据集成。
数据仓库
:由Bill Inmon于1990年定义,是集成的、面向主题的、随时间变化且不可修改的数据集合,用于支持管理决策。其核心目的是数据集成。
数据湖
:由Google Cloud于2011年提出,是集中式存储结构化、半结构化、非结构化数据的系统,以原生格式存储并处理任何转换格式。数据湖也以数据集成为主要目的,区别于数据仓库在于存储成本更低且无需预定义schema。
ETL
:数据集成的主要步骤,包括数据接入(Extract)、数据清洗/打宽(Transformation)和数据入仓/入湖(Load)。
数据集成工具
市场格局
:列举了Gartner和lakeFS的数据集成工具魔力象限,包括Stitch(Talend收购)、Fivetran、Airbyte等工具。
工具对比
:对比了Stitch、Fivetran、Airbyte在连接器自定义性、数据库复制方式、定价、数据栈集成、SLA支持等方面的差异。
ETL vs ELT
:介绍了ETL(Extract, Transform, Load)和ELT(Extract, Load, Transform)的概念,Fivetran在2019年提出Modern ELT口号。
现代数据栈
定义
:数据堆栈是一组对原始数据进行提取、转换和存储的技术或工具组合,使数据工程师和分析师能够提取和清洗数据,转换为有价值的数据并存储,然后进行分析。
意义
:原始数据通常不能直接消费,数据栈通过抽取、转换和存储使数据变得可消费、可分析,实现数据驱动业务。
现代数据栈
:基于云上数仓/湖的工具或技术组合,具备传统数据栈难以具备的弹性和扩容优势,层次清晰,有利于垂直领域工具形成标准SaaS服务,降低运维成本。
现代数据栈优势
:相比传统数据栈,现代数据栈在速度、成本、自动化和易用性方面更具优势。
现代数据栈实践
不同公司数据栈
:列举了不同公司的现代数据栈实践。
FlinkCDC集成能力
:展示了围绕FlinkCDC的数据集成实践,包括全量读取、流式读取、维度关联、流式写入等场景。
传统数据栈与现代数据栈对比
:对比了围绕FlinkCDC的传统数据栈和现代数据栈的架构。
实时计算Flink版
:介绍了围绕实时计算FlinkCDC的现代数据栈架构。
你可能感兴趣
6-1 现代数据栈与数据建模思考
商贸零售
DataFunSummit2022:数据产品经理峰会
2022-11-02
6-1 基于 StarRocks 现代数据栈的典型应用
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
5-1 现代数据栈中的消费层 - BI+AI 产品的演进
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
现代营销数据栈:AI驱动世界中营销人员如何成为变革推动者
商贸零售
Snowflake
2025-10-17
1-5 T3出行在现代数据栈上的探索和实践
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02