AI智能总结
分享人:陈哲嘉– OPPO-高级大数据平台工程师 DataFun#2024 目录CONTENT 大模型任务加速大模型任务接入数据平台Rust加速大模型任务 OPPO数据湖平台介绍Glacier –自研湖仓引擎流批一体 技术规划 OPPO数据湖平台介绍 OPPO大数据架构 自研数据湖产品-Glacier •管理和优化开源数据湖表•秒级写入•索引增强•非结构化数据优化 数据入湖 •CDC入湖•采集服务入湖•高性能&可靠性客户端 单表支持100+客户端同时提交数据 秒级延迟 •基于alluxio的流文件•低延迟的流式读取和数据分析•正确性保障 元数据管理-GMS •元数据定时任务•生命周期管理•数据治理 流批一体任务 •SQL兼容•执行计划区分•流批一体维表 大模型任务加速 数据湖&大模型 •平台化管理任务&数据•计算提效,存储降本•Spark-ML库•资源调度•对接训练平台 PySpark •7z数据入湖•内存优化(Pickler)•并行度优化•长文本切分/压缩•Remote Shuffle 数据加速 •分类数据索引•去重结果检索•缓存加速训练 任务优化 •MiniHash,Kmeans任务优化•全局精确去重实现•数据向量化(Rust改造) Tokenizer:Input:RDD<String>Output: RDD<Vector<Int>> 任务优化 任务Rust化改造 •提升效率•内存安全•环境简单•丰富的开源库 Rust版本,内存效率更高 资源调度 •跨集群任务调度•存储层打通•缓存加速训练 03技术规划 RoadMap 1.自研缓存2.流批一体引擎3.机器学习/大模型场景 感谢观看