分享人:陈哲嘉– OPPO-高级大数据平台工程师
DataFun#2024
目录CONTENT
大模型任务加速大模型任务接入数据平台Rust加速大模型任务
OPPO数据湖平台介绍Glacier –自研湖仓引擎流批一体
技术规划
OPPO数据湖平台介绍
OPPO大数据架构
自研数据湖产品-Glacier
•管理和优化开源数据湖表•秒级写入•索引增强•非结构化数据优化
数据入湖
•CDC入湖•采集服务入湖•高性能&可靠性客户端
单表支持100+客户端同时提交数据
秒级延迟
•基于alluxio的流文件•低延迟的流式读取和数据分析•正确性保障
元数据管理-GMS
•元数据定时任务•生命周期管理•数据治理
流批一体任务
•SQL兼容•执行计划区分•流批一体维表
大模型任务加速
数据湖&大模型
•平台化管理任务&数据•计算提效,存储降本•Spark-ML库•资源调度•对接训练平台
PySpark
•7z数据入湖•内存优化(Pickler)•并行度优化•长文本切分/压缩•Remote Shuffle
数据加速
•分类数据索引•去重结果检索•缓存加速训练
任务优化
•MiniHash,Kmeans任务优化•全局精确去重实现•数据向量化(Rust改造)
Tokenizer:Input:RDD