登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
6-4 基于数据湖技术的近实时场景实践
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
xx翔
基于数据湖技术的近实时场景实践总结
数据湖技术特性
Hudi 是一种提供流式原语、具备数据库和数据仓库核心功能的数据湖平台,支持各类计算和查询引擎,兼容多种文件系统。
Hudi 的 TimelineService 机制管理数据版本,实现近实时增量读写。
Hudi 提供两种表类型(MergeonRead/CopyonWrite)和两种查询模式(ReadOptimized/RealTime),支持灵活的数据实时性和查询实时性选择。
字节数据湖基于 Apache Hudi 定制,支持 Flink、Spark、Presto 等引擎,提供多源拼接、元数据管理、索引实现、行/列存存储格式,以及 upsert、append 数据更新能力和两种查询模式。
近实时技术架构
抖音电商的“内容电商”模式要求高时效性,近实时数据需求日益增多。
近实时场景特点:需求量大、响应速度快、多视角、多维度、实验性强、跨数据域关联,对延迟和质量容忍度高。
数据湖技术的适用性:
流批结果复用:流计算利用批计算结果解决历史累积、冷启动、回溯问题;批计算利用流计算结果提高离线数据产出时效性。
实时计算与存储统一:将 ODS、DWD 层数据入湖,DWS、DWM、APP 层计算在湖内进行,实现存储统一。
计算链路简化:基于多源数据拼接功能减少 join 操作,简化数据链路。
近实时架构方案:
兼顾时效性与数据复杂度:技术成熟稳定、数据丰富、可应对复杂逻辑,但时效性高时开发成本和稳定性较低。
架构方案演进:从离线批计算、实时流计算到近实时计算,寻求优势互补。
电商数仓实践
分析型场景
营销大促
:需求为当日分析决策,采用 T-1 全量实时流入湖,T 增量小时级定时调度计算合并数据,实现近实时分析。
流量诊断
:需求为流量监控,采用 non_index 表 append 写入,定时调度窗口汇总计算,近实时分析诊断,复用实时/离线数据。
物流监控
:需求为物流全景图,利用数据湖“多源拼接”功能简化 stateful 计算,融合多源数据。
风险治理
:需求为多业务角度近实时分析识别风险,以低廉成本高效支持需求量极大的近实时分析。
运维型场景
数据产品异动监控
:提前感知数据异常,快速定位修复,保障数据产品 SLA。
实时消息落盘检测
:低成本将实时计算中间结果落盘,实现数据近实时全面可见可测,提升研发效率和数据质量。
未来挑战与规划
挑战:更多业务接入、大数据量下的高性能需求、与 Flink、Spark 的更深度集成、稳定性保障。
规划:由近实时分析型应用转向近实时产品型应用,提升数据可见时效性和查询性能。
你可能感兴趣
实时湖仓在视频号场景的应用实践
商贸零售
-
2024-12-29
6-4 字节跳动流式数仓和实时服务分析的思考和实践
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
网易流批一体的实时数据湖实践 -周劲松
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
B站基于Iceberg构建秒级响应湖仓一体平台的技术实践
商贸零售
DataFunSummit2023:数据湖架构峰会
2023-07-12
聚美物联调研报告:利用室内定位技术采集商场内消费者的实时场景数据,实现精准营销
商贸零售
36氪研究院
2016-08-04