AI智能总结
从2.5到3.X的迭代升级 王新春唯品会-数据平台 OLAP在电商场景的发展历程 StarRocks2.5存算一体加速分析 StarRocks3.1存算分离优化和实践 StarRocks湖仓一体增强智能BI分析 04 StarRocksNext:统一分析场景 Presto/ClickHouse到StarRocks 2015年至今通用数据产品查询和数仓分析 2022年至今指标分析加速和湖仓分析 2020年至今专有数据产品加速和日志降本 主要工作:2020年:AB实验场景下Flink百万级/s写入性能优化 主要工作:2023年:部分场景替代Presto,提升5-10倍查询效率(P85查询小于5s) 主要工作:2019年:基于负载的集群调度,用户智能查询路由 2022年:日志场景下替换ES,节约50%以上成本;BulkLoad出仓加速2倍以上 2024年:大规模存算分离和统一湖仓分析加速 2019年:全部容器化,集群智能扩缩容 2022年:Spark和Presto潮汐混部,Presto夜间缩容调度ETL 2024年:核心集群多AZ容灾和高可用 2024年:Serverless架构,资源动态扩缩容 StarRocks 2.5存算一体加速分析 StarRocks 2.5存算一体加速分析 分析1.0基于PrestoDB+Alluxio,由于引擎能力和资源的有限,在用户体验层面痛点突出 StarRocks 2.5存算一体加速分析 StarRocks的引入,利用向量化和更好的下推能力,整体分析能力提升了7倍以上资源利用率在双11、双12活动大促、运营推广、复盘、年末汇算期间长期保持在85%以上 StarRocks 2.5存算一体加速分析 数据导入StarRocks的定制化优化,提升查询的稳定性和数据时效例如:导入数量限制、回刷历史数据时使用批量导入功能、以及是否将任务在空闲时段执行等 存算一体计算和存储资源的紧耦合,导致独立资源的弹性扩展能力不足PB级别数据的分析,数仓和StarRocks数据交换成本巨大 灵活调配使用内表和外表(Hive+BlockCache加速)的分区比例,弥补了之前仅使用纯内表模式的局限性 存算分离优化:HyperLogLog优化,秒级汇总亿级数据 Velox的HyperLogLog实现,替换StarRocks自带的相关函数二进制兼容由Spark使用Java版HLL UDAF写入Hive的预聚合结果 StarRocks湖仓一体增强智能BI分析 智能BI分析的对OLAP的挑战:大量指标的并发查询(长周期30-180天、同环比等) StarRocks湖仓一体增强智能BI分析 解决方案:指标全—数据湖仓;扩分析能力——多集群、存储分离 StarRocksNext:统一分析场景 基于StarRocks强大的查询和分析能力,解决分析场景各种业务需求,One Fits ALL实现路径:通过统一的对外接入服务,根据SLA要求自动路由对应的集群 Thank you!




