Alex Chen阿里云智能集团-研究员 智能客户服务,业务创新和自动化,销售流程,IT优化,欺诈分析 •多模态:从单一的文本(2KB)变成文本、图片(200KB)、音视频(MB)混合 •单个样本的数据量(Token)大幅增加 •内存墙:模型参数量增长10倍•算力:模型计算量增长68倍 GPT-3模型训练内存需求=参数+梯度+优化器+其他>2.8TB >> 80GB(A100显存大小)GPU显存几乎没有变化, GPU单卡的算力只增长了3倍 156TFLOPS 459TFLOPS Initialize trainingList files in dataset and shufflePrepare MP & PP发Repeat (for each batch):Read file for the batchTrainingAll reduceCheckpoint if necessary •训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到GPU卡上分布式计算•每个iteration结束时利用高速网络在所有GPU上all reduce同步模型参数•GPU卡规模越大,对高速网络、可靠存储要求更高 //迭代多轮iteration//读取一批数据用于训练 //所有GPU同步模型参数//周期性checkpoint •算法工程师要经常检查模型质量,如果学习率不够就要利用checkpoint回溯、参数调优后再继续训练 文件类型(以200B参数、2064卡为例) 文件类型 •模型文件:16x8 GPU节点,128个3GB文件,约384GB•优化器状态文件:2048GPU的zero优化器状态,2048个1.2GB文件,约2.4TB •样本数据集:海量小文件,比如Laion-5B数据量250TB,涉及文件数约100亿 IO Pattern IO Pattern IO Pattern •每个GPU 32路并发读•集群并发读6百万QPS •大块写模型文件,16个GPU节点30秒写完模型文件,单节点写吞吐1GB/s•每张GPU卡单路大块写优化器状态文件,2048卡并发写总带宽48GB/s •每张GPU卡单路大块读模型文件、优化器状态文件,并发读总带宽60GB/s 某客户的视频推理存储性能需求 •分布式元数据:小文件规模最大100亿,具备百万QPS元数据处理能力,比如lookup,getattr,open等•高性能存储介质和高性能网络:NVMeSSD和2*100GRDMA,checkpoint大块顺序读写,低延时和高吞吐•P2P分布式读缓存:每张GPU读取同一份模型checkpoint,集群并发读,需要具备最高百GB/s吞吐能力•数据并行写:每张GPU读写各自的优化器状态,集群并发写,需要具备超过50GB/s吞吐能力 目录树结构切分到多台服务节点支撑百亿文件 计算节点并行与所有存储服务器同时读取数据 百亿文件下仍可提供超高元数据性能 单个文件的读写均匀分布至多个存储节点 实现目录树动态的负载均衡避免目录热点 客户端支持链接层高可用,链路问题秒级别切换 客户端元数据缓存,查询操作无需跨越网络操作速度提升10倍,与本地EXT4性能相媲美 客户端提供端到端I/O指标,便捷调查访问热点和I/O瓶颈 客户端分布式读缓存,有效加速重复访问的热数据读速度,带宽和缓存池随计算规模增大而提升 海量数据的存储成本优化 数据块粒度流动,多并发技术可实现百Gbps流动性能 OSS提供低成本海量数据存储最低0.75分/GB/月 支持配合任务调度预加载或随I/O读取Lazyload 事件驱动的高效元数据同步OSS数据变动在CPFS中分钟级可见 OSS数据湖存储 OSS数据湖存储OSS冷归档和深度冷归档 高质量的数据是模型迭代的核心 如何找到高质量数据呢? 生成Bucket维度的元数据管理库支持9大类元数据索引条件筛选提供5种聚合输出方式 •通过对存储类型、Object标签及最后修改时间等条件设定,快速完成Bucket的文件扫描 •实现秒级文件名模糊搜索、数据聚合、按Object标签进行文件筛选等能力 •提高数据扫描与管理效率 数十亿文件秒级完成数据索引支持Object粒度的搜索与聚合数据更新后10秒内更新至索引池 -业务案例:“服装”“综艺”“美女”标签-但没有“明星走秀”这周对视频具有内容语义描述能力的标签 -业务案例:“汽车”“街道”“都市”标签-但没有“自驾游”这种对内容具有概括能力的语义标签 原子标签对视频描述能力不足堆叠标签数量无法满足业务需求需要使用“原子标签+语义标签”的方式提高视频理解深度 大规模向量索引流式构建向量状态变更即时生效 分布式水平扩展全托管 快速实现增删改查功能大规模数据低延迟查询自研高效查询算法 支持自定义Schema信息向量+条件过滤组合查询 与存储原生集成无需移动,自动处理 文本、图片、视频支持多模态内容审核 场景化构建元数据管理快速实现应用 FPGA硬件实现多种格式编码,热点计算和压缩 对象存储OSS 让不可能变为可能 •数据联合:融合分析、全链路可观测•更易使用:无需维护多套系统、易扩展、免运维•降低噪声:有效通知、便于正确响应•减少故障时间:自动检测异常、快速根因诊断 •体验是竞争力:1秒的延迟导致7%的用户流失•业务迭代快:55%应用每周或每天发布更新•基础设施与架构革新:混合云、云原生容器化微服务DevOps•运维数据多样化:数据容量、种类、可变性增加 DevOps为了调查问题,需花费数小时查找、对比、分析SecOps为了调查Case,需在百TB数据中抽丝剥茧 智能问答 智能运维模型 分析运维场景多模态数据基于通义千问NL2Query技术 指标异常检测、日志文本智能分词Trace链路高延时诊断 人工辅助微调 通用模型灵活扩展 人工标注、结果打标修正模型根据人工反馈自动微调 基础模型开箱即用快速扩容和服务迁移 探测导致Trace高延时或错误的服务关联Log/Trace/Metric,自动检测根因 游戏服务系统调用、依赖关系复杂,任何阶段出问题都可能导致游戏操作失败或卡顿,影响玩家用户体验 根据服务中的Trace数据自动生成拓扑图围绕高延时分析、高错误率分析、系统热点和瓶颈进行分析和诊断缩短问题处理时间,优化系统延时 预测微服务系统的性能瓶颈 在海量Trace中快速定位异常根因和性能瓶颈无需人工干预,提高大规模分布式系统异常定位效率数千请求秒级定位根因,在生产中准确率达95% 将Trace聚合,找到Trace的Pattern快速找到相同错误类型的报错 完整覆盖AI标注、开发、训练、推理一体化全链路的AI工程平台,全面提升行业、产业落地的三个效率 云原生的AI工程化平台支撑模型开发、训练、推理、部署全链路 1000+开源模型,模型下载次数6000+万,覆盖NLP、CV、语音、多模态等各个领域,尤其是AIGC、LLM等大模型 可靠存储、高效网络、强大算力全链路AI工程平台支持大规模分布式训练和推理 用AI的方法找数据向量索引聚合图像/视频/多模态数据搜索