高效智能,更全面的 AI 存储服务 业务痛点 数据采集环节 需要支持数据从公网便捷、大规模的采集,一般需数十 Gbps 公网带宽;同时由于数据需要跨地域传输,汇聚到一个统一存储池,需要就近接入和稳定的跨地域内网传输能力。 数据存储环节 大模型需要处理和存储大量的数据集来保存原始数据和处理过的数据;随着模型和数据集的不断增长,存储系统需要百 EB 级弹性可扩展的数据湖存储能力。 数据清洗和训练环节 高性能的存储系统可以大幅提升清洗和训练的效率,需要大带宽、低延迟和连续的读写能力。 数据审核与智理环节 AI 生成的内容有很强的侵权和违规风险,为确保业务持续稳定的运作,AIGC 服务提供商需在内容生成时进行 AIGC 内容标识,同时具备面向多模态内容的审核能力。 方案简介 腾讯云 AIGC 存储解决方案主要由对象存储 COS、高性能并行文件存储CFS Turbo、数据加速器 GooseFS 和数据万象 CI 等多种产品组成,覆盖 AI 大模型数据采集、清洗、训练、推理和智理全流程,将大模型的数据清洗和训练效率提升一倍,需要的时间缩短一半。 全景能力图 产品优势 海量存储 安全稳定 对象存储 COS 最高可达 12 个9 的 数 据 持 久 性(100 亿 文 件中 才 可 能 发 生 1 个 文 件 损 坏)和 99.995% 的数据可用性。 对 象 存 储 COS 为 AIGC 业 务全流程提供了统一的数据存储池,COS 底 层 采 用 全 自 研Yotta Store 存 储 引 擎,支 持单 集 群 百 EB 级 规 模,存 储 空间无容量上限。 高性能 用户需求全覆盖 数据万象 CI 面向全媒体类型内容,在审核高准确率的同时大幅降低延时;提供明暗水印能力,为 每 个 作 品 生 成 专 属 ID,安全可溯源;基于 AI 大模型和向量数据库的跨模态搜索能力打 造 智 能 检 索 MetaInsight ,95%+ 召回率助力进一步挖掘AIGC 数据价值。 CFS Turbo 提供 TB 级的吞吐能力、亚毫秒的时延和千万级的OPS,10s 内完成 checkpoint文件的读写,并满足万卡级集群进行大模型训练的样本读取需求。数据加速器 GooseFS 具备 高 性 能、低 延 迟、大 吞 吐 等特性;支持百亿级元数据规模、百万级 IOPS、亚毫秒级延迟和Tbps 吞吐;大模型数据清洗效率提升 2 ~ 3 倍。 相关应用场景 01. 数据湖 将多种数据源数据存储在对象存储 COS 中,通过数据加速器 GooseFS 提升数据本地性,元数据加速器提升元数据访问能力,COS 加速器减少内网穿越带宽,提升了对象存储 COS在存算分离方案下的性能指标,有效减少带宽消耗,提升了数据湖存储方案的竞争优势。 02. 自动驾驶 公有云 COS 和私有化 TStor 对象存储构建自动驾驶平台混合云存储池,满足海量数据低成本存储需求;结合 GooseFS 加速存储访问性能,解决海量小文件和 HDFS 文件访问的需求,实现数据智能预热和就近更高性能访问。 03. HPDA HPDA(High-Performance Data Analytics)泛指数据密集型的高存储压力应用,包括高性能计算、AI、自动驾驶、大数据、渲染等,其最大的挑战和特点是数据量大、并发度高、时效性强以及计算复杂。 HPDA 场景四大关键需求 CFS Turbo 是腾讯云面向 HPDA 场景推出的高性能并行文件存储,可满足如上的关键需求。已累计服务了千万 CPU 核和数万卡的用户,是 AI时代下存储底座的最佳选择。总结: