登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-1 流批一体的实时多维分析
金融
2022-07-19
DataFunSummit2022:多维分析架构峰会
Zt
大数据架构演进与流批一体方案
大数据架构演进
经典离线数仓架构
架构组成
:数据源 → 操作数据层(ODS)→ 明细数据层(DWD)→ 汇总数据层(DWS)→ 应用数据层(ADS)
优点
:架构简单,开发成本低,资源成本低,数据易管理,diff少
缺点
:数据时效性差,缺少实时数据,表数量太多
Lambda架构
架构组成
:数据源 → ODS → DW → Batch Layer(离线处理)+ Speed Layer(实时处理)→ Serving Layer
优点
:保证数据准确性和时效性,兼容经典离线数仓体系
缺点
:一个需求两套代码,资源占用多,实时数据和离线数据diff
Kappa架构
架构组成
:数据源 → 消息队列 → 流式计算 → ODS → Real-time Layer + Serving Layer
优点
:一套数据流,开发成本低,省掉离线数据流计算资源,实时离线数据逻辑统一
缺点
:数据回溯成本高,复杂关联场景开发维护成本高,历史包袱的迁移成本高
流批一体方案
流批一体背景
旧架构流程
:日志打点 → 离线采集 → 离线数据清洗 → 数据查询引擎多维分析 → 离线数据仓库(ODS/DW/DWS/ADS)→ 文件系统 → 消息队列 → 策略信号 → 实时报表 → 实时应用
旧架构问题
:表太多,数仓分层建设导致表数量多,使用成本高;查询慢;实时分析弱;实时报表太定制化,缺少多维分析能力
流批一体整体方案
架构组成
:数据源(日志打点/离线采集)→ 数据存储 → 数据清洗 → 实时数据仓库(分钟级宽表)→ 数据查询引擎(多维分析+自助报表)→ 文件系统 → 消息队列 → 策略信号 → 实时报表 → 实时应用
核心特点
:数据离线清洗,天级别更新字段实时更新,流批一体分钟级merge,实时数据仓库分钟级宽表
关键问题突破
1. DB数据更新问题
背景
:日志数据不会变化,但DB数据会更新;分布式文件系统不支持记录个别字段的update;计算窗口越大,吞吐能力和可维护能力变差
解决方案
:CopyOnWrite机制,5分钟滚动合并;DB Binlog → 消息队列 → 流式计算 → 分钟级delta文件(初次dump base V1 → base V2 → ...delta...)
2. 多表关联问题
背景
:离线场景多表关联(如Spark)需要多次关联,性能差
解决方案
:流式计算初次dump tmpDelta → DB主表 base → delta → 流式计算初次dump DB关联表A → 流式计算初次dump DB关联表...deltaA → baseAdelta... → base...tmpBase → BaseV1 → BaseVn
3. DB和日志关联问题
背景
:对缓存的读写和容量要求高,成本高;DB表吞吐高,存量记录多
解决方案
:日志采集 → 消息队列 → 流式计算 → 分钟级delta文件;多表关联解决方案:DB关联表(热base/冷base)分离
4. 数据到位时间问题
背景
:表A实时产出,表B T+1产出,表C T+2产出,宽表T+2产出
解决方案
:数据分版本产出,按需实时化;字段实时产出(时效性不敏感数据T+1产出,复杂计算、第三方回传数据T+2产出);V1可查询版本 → V2可查询版本 → 最终版本
总结和规划
总结
架构选型要符合业务现状,解决业务实际问题
架构选型要综合考量资源、复杂度、维护成本
规划
引擎查询性能持续提升
上层查询工具体验优化
你可能感兴趣
网易流批一体的实时数据湖实践 -周劲松
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
【财联社早知道】首次明确!国家数据局将实施“数据要素X”行动,行业有望进入加速发展期,这家公司具备六位一体的大数据核心能力;冬季呼吸道传染病高发,它研发了国内第一个获批临床的甲流病毒RNA聚合酶抑制剂
商贸零售
未知机构
2023-11-26
张静- ApacheFlink流批一体的规划和在快手的进展
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
1-6 郭轶轩 - 流批一体在快手的探索实践
商贸零售
2024 DAMS中国数据智能管理峰会
2024-12-06