背景介绍:Spark与Presto共用Alluxio缓存存在竞争问题(Spark ETL任务写入数据量大,内存冲刷后,Presto查询缓存命中率不高);单机版TensorFlow与Spark ETL集成问题(用户基于Spark运行ETL任务,将结果数据存储于Alluxio,用户复用第三方模型完成二次训练与推理,此模型不兼容现有的TensorFlow on Spark接口)。
使用案例:利用Alluxio Client Cache实现缓存隔离(Presto基于Alluxio Local cache缓存热数据,与Spark使用的Alluxio System Cache隔离,为Alluxio Local Cache分配独立的Ramdisk/SSD目录,缓存不占用Presto Worker JVM空间,Local Cache提供了RocksDB实现);利用Alluxio Fuse打通ETL与AI训练/推理(用户通过Alluxio Fuse将分布式文件映射为本地文件,Alluxio Fuse支持嵌入Worker及独立进程服务两种模式)。
背景介绍:数据分析场景新趋势(数字化转型背景下,传统业务探索数据分析场景,业务工程师缺乏大数据开发背景,对关系型数据库及SQL较为熟悉,业务间既有公有数据共享需求,又有私有数据管理需求,服务器资源增量低于业务需求量,业务自有服务器的空闲时段负载较低);基于Spark做私有化部署遇到问题(为每个用户独立部署Spark on Yarn管理复杂度高,为提供纯SQL分析支持,需要添加组件,增加集群管理复杂度,Spark per job模式作业并发度有限,作业配置相对复杂,Spark单Session模式难以在多任务间实现优先级隔离)。