登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
1-1 从数据集成到现代数据栈
信息技术
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
何***
AI智能总结
查看更多
数据集成与现代数据栈
数据集成
定义
:数据集成是将多个分散的数据源在逻辑或物理上集中,解决数据孤岛问题,提供统一数据视图以支持决策。
历史
:最早可追溯至1991年明尼苏达大学构建的IPUMS系统,采用数据仓库方法实现数据集成。
数据仓库
:由Bill Inmon于1990年定义,是集成的、面向主题的、随时间变化且不可修改的数据集合,用于支持管理决策。其核心目的是数据集成。
数据湖
:由Google Cloud于2011年提出,是集中式存储结构化、半结构化、非结构化数据的系统,以原生格式存储并处理任何转换格式。数据湖也以数据集成为主要目的,区别于数据仓库在于存储成本更低且无需预定义schema。
ETL
:数据集成的主要步骤,包括数据接入(Extract)、数据清洗/打宽(Transformation)和数据入仓/入湖(Load)。
数据集成工具
市场格局
:列举了Gartner和lakeFS的数据集成工具魔力象限,包括Stitch(Talend收购)、Fivetran、Airbyte等工具。
工具对比
:对比了Stitch、Fivetran、Airbyte在连接器自定义性、数据库复制方式、定价、数据栈集成、SLA支持等方面的差异。
ETL vs ELT
:介绍了ETL(Extract, Transform, Load)和ELT(Extract, Load, Transform)的概念,Fivetran在2019年提出Modern ELT口号。
现代数据栈
定义
:数据堆栈是一组对原始数据进行提取、转换和存储的技术或工具组合,使数据工程师和分析师能够提取和清洗数据,转换为有价值的数据并存储,然后进行分析。
意义
:原始数据通常不能直接消费,数据栈通过抽取、转换和存储使数据变得可消费、可分析,实现数据驱动业务。
现代数据栈
:基于云上数仓/湖的工具或技术组合,具备传统数据栈难以具备的弹性和扩容优势,层次清晰,有利于垂直领域工具形成标准SaaS服务,降低运维成本。
现代数据栈优势
:相比传统数据栈,现代数据栈在速度、成本、自动化和易用性方面更具优势。
现代数据栈实践
不同公司数据栈
:列举了不同公司的现代数据栈实践。
FlinkCDC集成能力
:展示了围绕FlinkCDC的数据集成实践,包括全量读取、流式读取、维度关联、流式写入等场景。
传统数据栈与现代数据栈对比
:对比了围绕FlinkCDC的传统数据栈和现代数据栈的架构。
实时计算Flink版
:介绍了围绕实时计算FlinkCDC的现代数据栈架构。
你可能感兴趣
1-5 T3出行在现代数据栈上的探索和实践
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
6-1 现代数据栈与数据建模思考
信息技术
DataFunSummit2022:数据产品经理峰会
2022-11-02
6-1 基于 StarRocks 现代数据栈的典型应用
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
云栖大会:从芯片算力到应用服务,阿里AI全栈式布局
交银国际
2025-09-25
5-1 现代数据栈中的消费层 - BI+AI 产品的演进
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02