您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:阿里云 AI 模型时代的多模态数据存储、管理和应用 - 发现报告
当前位置:首页/行业研究/报告详情/

阿里云 AI 模型时代的多模态数据存储、管理和应用

信息技术2023-09-15-阿里巴巴董***
阿里云 AI 模型时代的多模态数据存储、管理和应用

AI 模型时代的多模态数据存储、管理和应用Alex Chen阿里云智能集团-研究员 2026 中国 AI支出占亚太的 58%智能客户服务,业务创新和自动化,销售流程,IT 优化, 欺诈分析2026 年亚太地区 AI 支出5 年复合增长 24.5%* Source: IDC Worldwide Artificial Intelligence Spending Guide, 2023 495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服务器万卡集群XX分布式训练容错多租户隔离和调度规模复杂度软件复杂度架构复杂度 原始数据集训练数据集数据预处理模型训练模型验证反复训练优化不断训练优化数据收集场景化精调模型验证模型部署推理内容安全模型部署服务推理结果输出输入 •内存墙:模型参数量增长 10 倍•算力:模型计算量增长 68 倍•多模态:从单一的文本(2 KB)变成文本、图片(200 KB)、音视频(MB)混合•单个样本的数据量(Token)大幅增加 模型、参数量模型参数计算量GPT-3(175B)350GB314 ZFLOPSGPT-4(1800B)3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k单个样本的Token 量20494096819232768GPT-3 模型训练内存需求= 参数+梯度+优化器+其他 >2.8TB >> 80GB( A100 显存大小) GPU 显存几乎没有变化, GPU 单卡的算力只增长了 3 倍CPU 卡显存大小计算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS •训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到 GPU 卡上分布式计算•每个 iteration 结束时利用高速网络在所有 GPU 上 all reduce 同步模型参数•GPU 卡规模越大,对高速网络、可靠存储要求更高•算法工程师要经常检查模型质量,如果学习率不够就要利用 checkpoint 回溯、参数调优后再继续训练Initialize trainingList files in dataset and shuffle // 随机打散数据Prepare MP & PP// 规划模型并发, 流水线并发Repeat (for each batch): // 迭代多轮 iterationRead file for the batch// 读取一批数据用于训练TrainingAll reduce// 所有 GPU 同步模型参数Checkpoint if necessary// 周期性 checkpointCPU1b 模型切片,加载到 GPUGPT-3(175B)GPT-4(1800B)... ...... ...模型分片FwdBack数据分片4)all-reduce,更新模型参数3)SGDCPUCPUCPU...all-reduce模型并行数据并行5)周期性生成checkpoint1)数据shuffle、切片2)读取数据集分片iterations 文件类型•样本数据集:海量小文件,比如 Laion-5B 数据量 250TB ,涉及文件数约 100 亿IO Pattern•每个 GPU 32 路并发读•集群并发读 6百万 QPSIO Pattern•大块写模型文件,16 个 GPU 节点 30 秒写完模型文件,单节点写吞吐 1GB/s•每张 GPU 卡单路大块写优化器状态文件,2048 卡并发写总带宽 48GB/s文件类型(以 200B 参数、2064 卡为例)•模型文件:16x8 GPU 节点,128 个 3GB 文件, 约 384GB•优化器状态文件:2048 GPU 的 zero 优化器状态,2048 个 1.2GB 文件,约2.4TBIO Pattern•每张 GPU 卡单路大块读模型文件、优化器状态文件,并发读总带宽 60GB/sCPUs...datapartdatapartdatapartdatapart...datasetCPUs...optimstatemodeloptimstateoptimstate...checkpointCPUs...optimstatemodeloptimstateoptimstate...checkpoint 视频文件小文件(特征帧)读取文件写小文件小文件读取小文件小文件删除小文件某客户的视频推理存储性能需求视频......第1帧第2帧第 T 帧图像分类模型帧特征 x1图像分类模型帧特征 x2图像分类模型帧特征 xT............平均汇合视频特征 z全连接层类别预测 •分布式元数据:小文件规模最大 100 亿,具备百万 QPS 元数据处理能力,比如 lookup, getattr, open 等•高性能存储介质和高性能网络:NVMe SSD 和 2*100G RDMA,checkpoint 大块顺序读写,低延时和高吞吐•P2P 分布式读缓存:每张 GPU 读取同一份模型 checkpoint,集群并发读,需要具备最高百 GB/s 吞吐能力•数据并行写:每张 GPU 读写各自的优化器状态,集群并发写,需要具备超过 50GB/s 吞吐能力 CPFS 数据服务全分布式架构目录树服务数据服务目录树服务数据服务目录树服务数据服务目录树服务400 Gbps Lossy RDMA文件锁服务文件锁服务文件锁服务文件锁服务CPFS ClientElastic File ClientElastic File ClientElastic File Client分布式I/O计算节点并行与所有存储服务器同时读取数据目录树结构切分到多台服务节点支撑百亿文件百亿文件下仍可提供超高元数据性能实现目录树动态的负载均衡避免目录热点单个文件的读写均匀分布至多个存储节点单集群最大支持 2TB/s 吞吐, 3000 万 IOPS 客户端支持链接层高可用,链路问题秒级别切换客户端元数据缓存,查询操作无需跨越网络操作速度提升10 倍,与本地 EXT4 性能相媲美客户端提供端到端 I/O 指标,便捷调查访问热点和 I/O 瓶颈客户端分布式读缓存,有效加速重复访问的热数据读速度,带宽和缓存池随计算规模增大而提升万卡GPU集群应用文件客户端CPFS存储节点存储节点Elastic File ClientElastic File Client元数据缓存GPU 服务器GPU 服务器AI 应用 / PAI-DLC、TensorFlow、PyTorch....存储节点存储节点多链接多链接元数据缓存....分布式数据读缓存计算服务高性能文件存储RDMA 海量数据的存储成本优化OSS 提供低成本海量数据存储最低 0.75分/GB/月事件驱动的高效元数据同步OSS 数据变动在 CPFS 中分钟级可见数据块粒度流动,多并发技术可实现百 Gbps 流动性能支持配合任务调度预加载或随 I/O 读取 LazyloadPAI-DLC、Porch、TensorFlowAI 训练CPFS 文件系统OSS 数据湖存储对象接口POSIX 接口OSS 数据湖存储OSS 冷归档和深度冷归档 如何找到高质量数据呢?高质量的数据是模型迭代的核心 生成 Bucket 维度的元数据管理库支持 9 大类元数据索引条件筛选提供 5 种聚合输出方式数十亿文件秒级完成数据索引支持 Object 粒度的搜索与聚合数据更新后 10 秒内更新至索引池数据管理数据审计数据监管元数据组合条件索引自定义聚合输出秒级返回结果元数据管理库存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象 tag、对象 Etag、对象版本对象存储 OSS•通过对存储类型、Object 标签及最后修改时间等条件设定,快速完成 Bucket 的文件扫描•实现秒级文件名模糊搜索、数据聚合、按 Object 标签进行文件筛选等能力•提高数据扫描与管理效率 -业务案例:“汽车”“街道”“都市”标签 -但没有“自驾游”这种对内容具有概括能力的语义标签-业务案例:“服装”“综艺”“美女”标签 -但没有“明星走秀”这周对视频具有内容语义描述能力的标签原子标签对视频描述能力不足堆叠标签数量无法满足业务需求需要使用“原子标签+语义标签”的方式提高视频理解深度 苹果小孩苹果小孩小孩吃苹果 以文搜图/视频,图搜图/视频以及“文字+图片”组合搜索精确过滤等多种模态搜索模式非结构化数据标量索引向量索引全文索引图片文本Embedding多模态图像描述模型信息提取文本提取时空信息提取...... 分层共享存储(Auto-tiered Storage)宽表引擎索引引擎存储引擎(Data Storage & Index)通道引擎(CDC)数据订阅数据投递 多模型接口(Multi-Model & APIs) 统一查询接口(SQL)向量引擎(Proxima)AI Embedding+向量 API+向量 UDF以文搜图、视频、 文本、语音文本分割、问题分析(聊天历史)、答案推理智能媒体管理 分布式水平扩展全托管支持自定义 Schema 信息向量+条件过滤组合查询大规模向量索引流式构建向量状态变更即时生效快速实现增删改查功能大规模数据低延迟查询自研高效查询算法Proxiam SEProxiam DEProxiam CEDashVector实现了对大数据的高性能相似性搜索云原生分布式大规模向量的高性能、高可靠、高可用相似性搜索支持百万量级 TopK 向量召回支持多类目召回基于 Proxima 内核面对非结构化数据提供高效的向量管理和相似向量查询功能 与存储原生集成无需移动,自动处理文本、图片、视频支持多模态内容审核场景化构建元数据管理快速实现应用FPGA 硬件实现多种格式编码, 热点计算和压缩对象存储 OSS文件存储 NAS多媒体处理引擎文档预览与编辑文档转换AI 内容审核图片 AI语音识别数据管理与索引索引聚类故事生成数据处理工作流网盘云相册AI 应用社交图库家庭监控文件解压缩 让不可能变为可能应用层的创新生产效率的提升 •体验是竞争力:1 秒的延迟导致 7% 的用户流失•业务迭代快:55% 应用每周或每天发布更新•基础设施与架构革新:混合云、云原生容器化微服务 DevOps•运维数据多样化:数据容量、种类、可变性增加DevOps 为了调查问题,需花费数小时查找、对比、分析SecOps 为了调查 Case,需在百 TB 数据中抽丝剥茧•数据联合:融合分析、全链路可观测•更易使用:无需维护多套系统、易扩展、免运维•降低噪声:有效通知、便于正确响应•减少故障时间:自动检测异常、快速根因诊断 交互式根因分析NL2SQL 智能问答时序/链路异常检测日志自动标注Trace 基础模型时序基础模型日志基础模型logmetrictrace通义模型知识智能运维模型指标异常检测、日志文本智能分词Trace 链路高延时诊断智能问答分析运维场景多模态数据基于通义千问 NL2Query 技术人工辅助微调人工标注、结果打标修正模型根据人工反馈自动微调基础模型开箱即用快速扩容和服务迁移通用模型灵活扩展 游戏服务系统调用、依赖关系复杂,任何阶段出问题都可能导致游戏操作失败或卡顿,影响玩家用户体验根据服务中的 Trace 数据自动生成拓扑图围绕高延时分析、高错误率分析、系统热点和瓶颈进行分析和诊断缩短问题处理时间,优化系统延时在海量 Trace 中快速定位异常根因和性能瓶颈无需人工干预,提高大规模分布式系统异常定位效率数千请求秒级定位根因,在生产中准确率达 95%探测导致 Trace 高延时或错误的服务关联 Log/Trace/Metric,自动检测根因预测微服务系统的性能瓶颈将 Trace 聚合,找到 Trace 的 Pattern快速找到相同错误类型的报错15:23 共有 1 个入口服务产生 2880 条慢 Trace 其中入口服务 Front-end 的