6-2 字节数据湖平台在实时数仓中的实践

介绍实时数仓场景的基本概念和需求。

场景探索：探讨数据湖是否可以解决实时数仓的实际痛点问题，并稳定支持线上业务。
数据湖优势：相对离线数仓具有时效性和高效更新，相对实时数仓则是一份存储批流两用，高效数据分析。
视频元数据案例：通过视频元数据场景，展示数据湖如何将时效性从天级提升至小时级，线上效果为数据就绪时间提前3.5小时，高峰期资源消耗减少约40%。
近实时数据校验案例：通过近实时数据校验场景，展示数据湖如何将实效性从小时级提升至分钟级，并从根本上帮助业务侧改善研发效率及数据质量。
近实时数据校验问题与解决方案：指出当前近实时数据校验存在易用性较差和运维成本高的问题，并提出纯SQL化、基于Catalog简化参数配置、完善用户手册等解决方案。

实时多维汇总：
- 场景描述：轻度汇总数据实时入湖，下游读时按需重度聚合，面向内部分析和数据产品。
- 暴露问题：写入稳定性差、更新性能差、并发难提升、查询性能差。
- 解决方案：
  - 写入稳定性治理：采用Async Compaction + Compaction Service V1。
  - 高效更新索引：采用Bucket Index，数据量级提升至百TB级，基于哈希值快速定位和基于哈希分布加速查询。
  - 请求模型优化：采用Embedded Timeline Server，RPS量级提升至近千万。
  - 查询性能专项优化：包括MergeOnRead列裁剪、并行读优化、Combine Engine、Parquet Log Format、读文件系统长尾问题优化。
实时数据分析：
- 场景描述：明细数据直接入湖，运营、DA自主分析或者构建可视化看板。
- 日志型数据高效入湖：采用NonIndex技术。
- 实时数据关联：包括写流程和读流程的详细描述。

弹性可扩展索引系统：采用Extensible Hash Index应对业务数据快速增长。
自适应表优化服务：采用Table Management Service完全托管Compaction/Clean/Clustering。
元数据服务增强：支持Hudi schema的增加、删除和修改，支持流批并发写入。
批流一体：采用Unified SQL实现批流一体SQL，由Flink/Spark/Presto多引擎协同计算；采用Unified Storage基于Hudi的实时数据湖存储；采用Unified Catalog实现统一元数据。