实时数仓场景介绍
介绍实时数仓场景的基本概念和需求。
数据湖在实时数仓场景初探
- 场景探索:探讨数据湖是否可以解决实时数仓的实际痛点问题,并稳定支持线上业务。
- 数据湖优势:相对离线数仓具有时效性和高效更新,相对实时数仓则是一份存储批流两用,高效数据分析。
- 视频元数据案例:通过视频元数据场景,展示数据湖如何将时效性从天级提升至小时级,线上效果为数据就绪时间提前3.5小时,高峰期资源消耗减少约40%。
- 近实时数据校验案例:通过近实时数据校验场景,展示数据湖如何将实效性从小时级提升至分钟级,并从根本上帮助业务侧改善研发效率及数据质量。
- 近实时数据校验问题与解决方案:指出当前近实时数据校验存在易用性较差和运维成本高的问题,并提出纯SQL化、基于Catalog简化参数配置、完善用户手册等解决方案。
数据湖在实时数仓典型场景实践
- 实时多维汇总:
- 场景描述:轻度汇总数据实时入湖,下游读时按需重度聚合,面向内部分析和数据产品。
- 暴露问题:写入稳定性差、更新性能差、并发难提升、查询性能差。
- 解决方案:
- 写入稳定性治理:采用Async Compaction + Compaction Service V1。
- 高效更新索引:采用Bucket Index,数据量级提升至百TB级,基于哈希值快速定位和基于哈希分布加速查询。
- 请求模型优化:采用Embedded Timeline Server,RPS量级提升至近千万。
- 查询性能专项优化:包括MergeOnRead列裁剪、并行读优化、Combine Engine、Parquet Log Format、读文件系统长尾问题优化。
- 实时数据分析:
- 场景描述:明细数据直接入湖,运营、DA自主分析或者构建可视化看板。
- 日志型数据高效入湖:采用NonIndex技术。
- 实时数据关联:包括写流程和读流程的详细描述。
未来规划
- 弹性可扩展索引系统:采用Extensible Hash Index应对业务数据快速增长。
- 自适应表优化服务:采用Table Management Service完全托管Compaction/Clean/Clustering。
- 元数据服务增强:支持Hudi schema的增加、删除和修改,支持流批并发写入。
- 批流一体:采用Unified SQL实现批流一体SQL,由Flink/Spark/Presto多引擎协同计算;采用Unified Storage基于Hudi的实时数据湖存储;采用Unified Catalog实现统一元数据。
湖仓一体分析
介绍面向湖仓一体架构的Serverless数据处理分析服务,提供一站式的海量数据存储计算和交互分析能力,完全兼容Spark、Presto、Flink生态,帮助企业轻松完成数据价值洞察。