腾讯云原生数据湖存储架构发展和数据治理
腾讯云原生数据湖存储架构
腾讯云原生数据湖存储GooseFS采用三层加速架构,包括近计算端缓存、元数据加速和COS加速器,分别针对计算端、数据端和存储端进行性能优化。
- 近计算端缓存(Cache Accelerator):运行在EMR/AI/ML/K8S集群内,利用集群MEM/SSD资源提供Data Cache能力,支持Hive Table Level、Iceberg Table Level和Prefix Level预热,并支持LRU/LRFU/TTL等多种缓存淘汰策略。
- 元数据加速器(Metadata Accelerator):提供文件系统级别元数据操作能力,支持Rename操作无需Copy/Delete数据,List操作无频控,每个Bucket提供10万QPS。
- COS加速器(Data Accelerator):AZ级部署,全SSD存储介质,提供Tbps带宽和ms级别时延,满足高吞吐需求。
数据湖存储GooseFS大数据业务实践
GooseFS支持Hive、Spark、Hive/Iceberg等计算引擎,通过Shaded client打入计算fat jar,支持原生的COSN schema和GooseFS schema开启三层加速特性。
- GooseFS on EMR:支持Spark/Hive/Presto/Impala等计算引擎,通过Data Cache和元数据加速提升查询性能。
- 数据湖结构化:支持Hive和Iceberg表,通过Attach Database、Load Table、Free Table等操作实现数据管理。
数据湖存储GooseFS模型训练业务实践
GooseFS面向AIGC大模型训练场景,提供多种缓存加速方案,包括MEM、NVME SSD等,并通过数据调度和智能缓存实现算存融合。
- 能力矩阵:GooseFS加速训练数据读取、提升训练速度、优化网络交换,支持A800/H800 GPU实例和TACO Train加速套件。
- 数据流动高效调度:根据Dataset大小和性能需求,动态调度加速资源,实现算存融合智能缓存。
- 混合云大模型训练平台:数据持久化存储在COS Data Lake中,训练数据按需通过GooseFS拉取到云上或IDC计算端,实现多地训练。
数据湖存储GooseFS架构演进
GooseFS通过架构演进持续优化性能和功能,包括:
- 弹性伸缩:支持按需弹性扩缩容,业务结束后可选择销毁实例降低成本。
- 元数据性能优化:通过Follower Master承载读流量,元数据List QPS同比提升近4倍。
- 元数据卸载TiKV:将元数据管理从本地Memory+RocksDB升级到分布式TiKV,单节点文件总量支持稳定在54亿(单盘)或102亿(双盘)。
自动驾驶训练场景数据湖存储
GooseFS在自动驾驶训练场景中提供高性能存储解决方案,通过COS和OneCOS实现海量数据存储,并通过GooseFS加速GPU训练IO性能,提升训练效率30%。
- 方案描述:COS提供海量低成本存储,TKE+GooseFS作为数据预处理平台,COS+GooseFS作为自动驾驶训练平台。
- 方案价值:构建自动驾驶混合云平台,通过GooseFS数据缓存能力提升训练效率。
- 各流程使用GooseFS:ETL、Labeling、Training、Scenario Repo、Endurance Run均通过POSIX接口访问GooseFS数据。
总结
腾讯云原生数据湖存储GooseFS通过三层加速架构、大数据业务实践、模型训练业务实践、架构演进和自动驾驶训练场景应用,实现了高性能、弹性伸缩、智能缓存和混合云支持,有效提升了数据访问性能和训练效率。