LAS介绍
LAS(Lakehouse Analysis Service)是一个湖仓分析引擎,提供湖仓开发工具、批流一体SQL、统一元数据、统一目录权限管控、元数据发现等功能,支持与Spark、Presto、Flink等生态连接,并集成TOS、RDSE、MRQ等数据源和分布式文件存储。
核心优势
LAS的核心优势在于存算分离和极致弹性,通过将数据存储在对象存储中,支持多引擎分析,降低运维难度。相比存算一体架构,LAS可降低TCO 5~30%,并支持独享队列、定时扩缩容和自动弹性伸缩。
基于LAS构建企业级实时湖仓
LAS支持批流一体存储,一份存储同时支持流式增量读写及批量读写,并支持实时高效OLAP查询和高效维表Join。此外,LAS还支持一套SQL同时支持数据构建与数据分析。
问题与挑战
LAS数据湖落地面临数据孤岛、数据可靠性非强保障、实时入湖稳定性差、用户理解成本高等挑战。
LAS数据湖服务化设计与实践
LAS服务化设计遵循云原生架构,支持多租户隔离和高可用。主要服务包括:
- 元数据管理服务HudiMetaServer:提供统一的元数据视图,保障强一致性和高可扩展性。通过乐观锁和版本机制实现并发管理,支持多种冲突检查策略。
- 表管理服务TableManagementService:异步任务全托管,如compaction、clean、clustering等,支持高可扩展性和多引擎适配。
未来规划
未来规划包括智能湖加速,涵盖元数据加速、数据加速、索引加速等方面。