2-1 数据编排技术在联通的应用

01-缓存加速

背景介绍：多样化&分散的计算平台面临集群规模瓶颈、资源消耗大、速度慢、单机性能瓶颈等问题；统一计算引擎HDFS无法满足GreenPlum承载的业务和交互式查询业务，欠缺稳定性。
使用案例：基于Alluxio + Spark构建统一大数据计算平台，加速迭代计算（Spark SQL任务提速26小时）、Spark Job间共享数据（替换Spark cache）、内存多副本显著提高热数据访问速度、高并发访问限制文件副本数（DeterministicHashPolicy实现2副本）、调整数据分布策略实现负载均衡（MostAvailableFirstPolicy和RoundRobinPolicy）。
使用效果：Alluxio带来性能与稳定性提升，核心批处理业务规模增长70倍，业务提速26小时；交互式查询业务日增数据60TB，单表2.5TB分钟级查询；Oracle业务迁移实现分析维度细化至用户级。

02-存算分离

背景介绍：业务快速增长伴随资源碎片化，资源申请周期长，集群呈碎片化趋势；业务增长过程中存在资源需求不平衡，历史数据存储需求逐年递增，存储规模增长远高于计算规模增长。
使用案例：利用其他业务资源满足计算扩容需求（元数据&数据缓存、远程Alluxio挂载）；存储独立扩容，数据冷热分离（计算集群HDFS、大容量存储集群HDFS、历史数据降级、历史数据查询）；基于RocksDB + Raft HA解决Alluxio HA元数据操作性能问题，跨集群部署Dolphin Scheduler Worker。
使用效果：算力提升（某核心用户租借算力占平台分配算力的82%，承接新业务占比达50%），存储提升（单台服务器存储容量提升5倍，历史数据存储成本降低83%）。

03-混合负载

背景介绍：Spark与Presto共用Alluxio缓存存在竞争问题（Spark ETL任务写入数据量大，内存冲刷后，Presto查询缓存命中率不高）；单机版TensorFlow与Spark ETL集成问题（用户基于Spark运行ETL任务，将结果数据存储于Alluxio，用户复用第三方模型完成二次训练与推理，此模型不兼容现有的TensorFlow on Spark接口）。
使用案例：利用Alluxio Client Cache实现缓存隔离（Presto基于Alluxio Local cache缓存热数据，与Spark使用的Alluxio System Cache隔离，为Alluxio Local Cache分配独立的Ramdisk/SSD目录，缓存不占用Presto Worker JVM空间，Local Cache提供了RocksDB实现）；利用Alluxio Fuse打通ETL与AI训练/推理（用户通过Alluxio Fuse将分布式文件映射为本地文件，Alluxio Fuse支持嵌入Worker及独立进程服务两种模式）。
使用效果：Presto查询加速（查询性能提升50%，相比OS Cache更加稳定可预测）；大数据+AI集成效果（TensorFlow训练/推理代码0改动完成与大数据ETL的集成，首批业务完成60万用户接入，基于Dolphin Scheduler实现大数据+AI全流程自动化调度）；微软、BOSS直聘、bilibili、momo等公司已在生产训练中部署Alluxio Fuse。

04-轻量级分析

背景介绍：数据分析场景新趋势（数字化转型背景下，传统业务探索数据分析场景，业务工程师缺乏大数据开发背景，对关系型数据库及SQL较为熟悉，业务间既有公有数据共享需求，又有私有数据管理需求，服务器资源增量低于业务需求量，业务自有服务器的空闲时段负载较低）；基于Spark做私有化部署遇到问题（为每个用户独立部署Spark on Yarn管理复杂度高，为提供纯SQL分析支持，需要添加组件，增加集群管理复杂度，Spark per job模式作业并发度有限，作业配置相对复杂，Spark单Session模式难以在多任务间实现优先级隔离）。
使用案例：Presto + Alluxio实现轻量级数据分析平台（用户集群搭建Alluxio + Presto两套系统满足数据分析需求，运维复杂度相对较低，纯SQL交互用户体验好，Alluxio mount平台HDFS用于私有数据共享，Alluxio SDS mount平台Hive用于公有数据访问及性能加速，基于Presto Iceberg connector的hadoop catalog mode，采用只写缓存的方式在本地完成ETL，最终数据持久化至平台HDFS，Alluxio使用3副本策略保证缓存数据的可用性，可挂载独立存储集群持久化存储需长期保存的分析数据）。

05-要点回顾

数据编排引擎Alluxio在多个场景得到广泛应用：
- 缓存加速：Alluxio加速Spark批处理、交互式查询业务，保障业务稳定高效。
- 存算分离：基于Alluxio利用其他业务资源实现计算低成本扩容，通过Alluxio实现冷热数据分层，显著降低历史数据存储成本。
- 混合负载：通过使用Local Cache实现了Presto与Spark间的缓存隔离，并且显著提升Presto查询性能。通过Alluxio Fuse打通了Spark ETL与TensorFlow训练/推理，实现了大数据+AI的无缝整合。
- 轻量级分析：基于Presto + Alluxio为传统业务构建了数据分析服务，具备低成本、低门槛、数据按需共享等特点。