登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
2-1 数据编排技术在联通的应用
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
张***
AI智能总结
查看更多
01-缓存加速
背景介绍:多样化&分散的计算平台面临集群规模瓶颈、资源消耗大、速度慢、单机性能瓶颈等问题;统一计算引擎HDFS无法满足GreenPlum承载的业务和交互式查询业务,欠缺稳定性。
使用案例:基于Alluxio + Spark构建统一大数据计算平台,加速迭代计算(Spark SQL任务提速26小时)、Spark Job间共享数据(替换Spark cache)、内存多副本显著提高热数据访问速度、高并发访问限制文件副本数(DeterministicHashPolicy实现2副本)、调整数据分布策略实现负载均衡(MostAvailableFirstPolicy和RoundRobinPolicy)。
使用效果:Alluxio带来性能与稳定性提升,核心批处理业务规模增长70倍,业务提速26小时;交互式查询业务日增数据60TB,单表2.5TB分钟级查询;Oracle业务迁移实现分析维度细化至用户级。
02-存算分离
背景介绍:业务快速增长伴随资源碎片化,资源申请周期长,集群呈碎片化趋势;业务增长过程中存在资源需求不平衡,历史数据存储需求逐年递增,存储规模增长远高于计算规模增长。
使用案例:利用其他业务资源满足计算扩容需求(元数据&数据缓存、远程Alluxio挂载);存储独立扩容,数据冷热分离(计算集群HDFS、大容量存储集群HDFS、历史数据降级、历史数据查询);基于RocksDB + Raft HA解决Alluxio HA元数据操作性能问题,跨集群部署Dolphin Scheduler Worker。
使用效果:算力提升(某核心用户租借算力占平台分配算力的82%,承接新业务占比达50%),存储提升(单台服务器存储容量提升5倍,历史数据存储成本降低83%)。
03-混合负载
背景介绍:Spark与Presto共用Alluxio缓存存在竞争问题(Spark ETL任务写入数据量大,内存冲刷后,Presto查询缓存命中率不高);单机版TensorFlow与Spark ETL集成问题(用户基于Spark运行ETL任务,将结果数据存储于Alluxio,用户复用第三方模型完成二次训练与推理,此模型不兼容现有的TensorFlow on Spark接口)。
使用案例:利用Alluxio Client Cache实现缓存隔离(Presto基于Alluxio Local cache缓存热数据,与Spark使用的Alluxio System Cache隔离,为Alluxio Local Cache分配独立的Ramdisk/SSD目录,缓存不占用Presto Worker JVM空间,Local Cache提供了RocksDB实现);利用Alluxio Fuse打通ETL与AI训练/推理(用户通过Alluxio Fuse将分布式文件映射为本地文件,Alluxio Fuse支持嵌入Worker及独立进程服务两种模式)。
使用效果:Presto查询加速(查询性能提升50%,相比OS Cache更加稳定可预测);大数据+AI集成效果(TensorFlow训练/推理代码0改动完成与大数据ETL的集成,首批业务完成60万用户接入,基于Dolphin Scheduler实现大数据+AI全流程自动化调度);微软、BOSS直聘、bilibili、momo等公司已在生产训练中部署Alluxio Fuse。
04-轻量级分析
背景介绍:数据分析场景新趋势(数字化转型背景下,传统业务探索数据分析场景,业务工程师缺乏大数据开发背景,对关系型数据库及SQL较为熟悉,业务间既有公有数据共享需求,又有私有数据管理需求,服务器资源增量低于业务需求量,业务自有服务器的空闲时段负载较低);基于Spark做私有化部署遇到问题(为每个用户独立部署Spark on Yarn管理复杂度高,为提供纯SQL分析支持,需要添加组件,增加集群管理复杂度,Spark per job模式作业并发度有限,作业配置相对复杂,Spark单Session模式难以在多任务间实现优先级隔离)。
使用案例:Presto + Alluxio实现轻量级数据分析平台(用户集群搭建Alluxio + Presto两套系统满足数据分析需求,运维复杂度相对较低,纯SQL交互用户体验好,Alluxio mount平台HDFS用于私有数据共享,Alluxio SDS mount平台Hive用于公有数据访问及性能加速,基于Presto Iceberg connector的hadoop catalog mode,采用只写缓存的方式在本地完成ETL,最终数据持久化至平台HDFS,Alluxio使用3副本策略保证缓存数据的可用性,可挂载独立存储集群持久化存储需长期保存的分析数据)。
05-要点回顾
数据编排引擎Alluxio在多个场景得到广泛应用:
缓存加速:Alluxio加速Spark批处理、交互式查询业务,保障业务稳定高效。
存算分离:基于Alluxio利用其他业务资源实现计算低成本扩容,通过Alluxio实现冷热数据分层,显著降低历史数据存储成本。
混合负载:通过使用Local Cache实现了Presto与Spark间的缓存隔离,并且显著提升Presto查询性能。通过Alluxio Fuse打通了Spark ETL与TensorFlow训练/推理,实现了大数据+AI的无缝整合。
轻量级分析:基于Presto + Alluxio为传统业务构建了数据分析服务,具备低成本、低门槛、数据按需共享等特点。
你可能感兴趣
2-1 人工智能在金融风控和监管领域的应用
信息技术
DataFunSummit2022:智能风控技术峰会
2022-07-19
2-1 因果推断在游戏中的应用 - 房栋 腾讯游戏
文化传媒
DataFunSummit2022:数据科学在线峰会
2022-06-13
2024数据为中心的AI技术在电力系统运行控制中的应用研究报告
公用事业
清华大学
2024-08-08
大公国际一周行业动态: 4月份金融数据好于预期,5G技术在各行业加速应用
金融
大公信用
2020-05-15
增强ran的弹性和可扩展性:在不同的o-cloud环境中利用多云应用程序编排
风河
2024-04-01