登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
Ernest'何世友- Serverless ETL:面向百亿市场规模的实时数据集成方案演进之路
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
玉苑金山
数据处理场景分析
数据处理场景定义
:数据集成和数据处理的核心问题空间,包括数据来源、处理目标和产品形态发展趋势。
数据处理市场空间
:
全球数据集成场景市场空间估算为31亿美元(186亿人民币),年复合增长20%,预计2028年达到150亿美元(900亿人民币)。
硅谷ELT新宠儿Airbyte估值95亿人民币,主要做ELT中的L,即数据源连接和数据仓库加载。
AWS Lambda在ETL场景收入超10亿人民币,占其收入的50%,典型客户如Thomson Reuters、Netflix。
国内数据中台市场规模为139亿人民币,处于高速发展阶段。
数据处理场景典型方案
典型架构
:高吞吐低延迟大数据管道云架构。
典型方案
:Apache Flink推出STATEFUL FUNCTION,AWS推出EMR、MKS、REDSHIFT SERVERLESS。
技术痛点
:
基于消息队列,但与消息队列关系不大。
集成连接和数据映射困难,数据缺乏规范和自解释性,胶水层代码重复编写。
运维管理困难,异构系统业务压力不同步。
SLA难以保障,At least once和Exactly once难以实现。
技术演进
:
消息队列自我进化:KAFKA、KSQL、PULSAR FUNCTION。
事件驱动模型自然生长:触发器矩阵,事件连接自动化。
典型客户案例:知乎的图片文件处理,利用COS触发器触发云函数进行图片处理。
SERVERLESS ETL
重新定义需求场景
:解决所有从A到B的问题。
重新定义产品形态
:
连接:EventBridge事件总线,接入100+云上服务。
计算:面向数据工程师的SQL和业务工程师的高级编程语言,可视化配置、云函数、Flink集成处理。
全托管的事件源连接器,消灭胶水层服务。
从消息驱动到事件驱动,统一标准规范,拥抱云原生社区标准CloudEvents协议。
可视化数据处理
:不规范就让它规范,包括过滤、映射、序列化。
写代码自由
:提供云函数集成处理,支持batch window和Flink作业模式。
解决所有从A到B的问题
:
基于CloudEvents规范的事件格式。
全托管的连接器+可视化配置+可插拔的算力支持。
默认At least once+可选强顺序模式。
典型应用场景
:不止于数据处理,面向异构系统互联,数据是系统联通的体现。
典型客户案例
:
小米自动化运维:利用EventBridge自动采集监控事件,投递到Ckafka进行处理。
上海橙域网络日志处理方案:每天处理10亿日志,利用Serverless产品应对流量洪峰。
腾讯智慧零售商品中台:对接京东、苏宁、拼多多等商家商品数据,通过SCF云函数调度和ASW流程编排进行处理。
你可能感兴趣
徐榜江 (雪尽) - FlinkCDC如何加速海量数据的实时集成
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
面向6G的多维融合的数据编织技术演进
商贸零售
6G网络AI联盟
2024-04-16
趣丸数据架构的演进之路——Data Mesh 的架构实践
商贸零售
InfoQ
2023-08-20