登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-3 StarRocks 构建实时数仓的新探索
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
刘银河
StarRocks构建实时数仓的新探索
实时数仓经典架构与特点
实时数仓 1.0 - Storm 架构
:采用 Spout 和 Bolt 模式进行数据流处理。
实时数仓 2.0 - Lambda & Kappa 架构
:Lambda 架构结合批处理和实时处理,Kappa 架构则仅使用实时处理,去除批处理层。
实时数仓 3.0 - Flink 架构
:利用 Flink 进行数据采集、实时应用、分析、大屏展示、查询和推荐,数据源包括用户行为、业务数据、系统日志、爬虫数据等,通过 Kafka、Pulsar、Canal、Flume、Logstash、Debezium 等工具进行数据传输。
StarRocks实时数仓定位与产品能力
实时数仓新挑战
:数据采集链路冗长、技术栈复杂、功能性缺失、数据更新能力弱、查询并发量低、去重困难。
StarRocks 在实时数仓生态定位
:作为数据存储和分析引擎,直接连接数据源和实时应用,支持数据采集、实时数据摄入、实时数据更新、实时数据建模、实时数据分析等功能。
StarRocks 实时数仓能力
:
实时数据摄入
:支持直接订阅 Kafka 数据,提供 Flink-Connector 实现 Exactly Once 数据摄入,以及 Flink CDC 直接捕获 TP 数据变更。
实时数据更新
:采用 PK 模型提供 Delete and Insert 更新方式,性能相比 Merge on Read 提升 3-15 倍。
实时数据建模
:支持聚合模型、向量化引擎、实时 Join 能力,并提供物化视图实现抢一致性,支持 AdHoc 分析、固定报表、OLAP 分析等应用。
实时数据分析
:生产后的数据可直接使用,支持实时、离线数据统一融合。
StarRocks 实时数据摄入能力
支持多种数据摄入方式,包括 ETL、CDC、Query、Ingestion、External Table、MQ 等。
StarRocks 实时数据建模能力
明细模型
:通过主键排序和主键分组进行数据插入。
聚合模型
:对数据进行聚合计算。
更新主键模型
:通过主键进行数据更新。
StarRocks数据建模
:支持 AdHoc 分析、固定报表、OLAP 分析等应用,并提供视图/物化视图建模,支持实时、批量构建、灵活增加/删除、Schema Change,使用时只需指定原始表,CBO 自动选择最优物化视图。
StarRocks 实时分析加速能力
向量化引擎
:通过改造数据结构和执行逻辑,利用 CPU 指令 AVX2 实现单条指令多条数据同时执行,提升 Filter、Group、Shuffle Join、Broadcast Join 效果分别为 5.1 倍、14.9 倍、3.7 倍、3.5 倍。
更多优化手段
:包括低基数优化、延迟物化等,进一步提升查询性能。
StarRocks 实时分析高并发能力
Level 1 分区存储
:按日期分区存储数据。
Level 2 分桶存储
:按 site_id 分桶存储数据。
建表
:采用 Partition By Range 和 Distributed By Hash 进行建表。
高并发查询
:通过 Level 1 和 Level 2 分区/分桶存储,以及建表优化,实现高并发查询。
StarRocks 实时更新能力
查询数据量
:对比 Primary Key(Delete and Insert)和 Unique Key(Merge on Read)两种更新方式,StarRocks 在导入过程和导入后均显著提升查询性能。
StarRocks 实时数仓架构与数据建模
实时数仓新挑战
:同前文。
Flink x StarRocks 实时数仓架构
:通过 Flink CDC 改造数据传输链路,提升数据更新能力和查询性能。
StarRocks 宽表实时数仓建模方式
:将非结构化数据传输与计算,以及结构化业务数据存储与分析,整合到 StarRocks 中,实现实时应用、实时分析、实时大屏、实时推荐、实时查询和实时预警。
StarRocks 星型/雪花模型实时数仓架构
:将数据湖数据存储与分析,以及实时应用、实时分析、实时大屏、实时推荐、实时查询和实时预警,整合到 StarRocks 中,并采用星型或雪花模型进行数据建模。
StarRocks 单表查询性能测评
SSB单表性能测试对比报告
:StarRocks 在 SSB 单表性能测试中表现优异。
StarRocks 多表关联性能测评
TPCH 性能测试对比报告
:StarRocks 在 TPCH 多表关联性能测试中表现优异。
StarRocks实时数仓用户案例
小红书案例
:基于 StarRocks 构建广告数据中心,通过聚合模型、主键模型、物化视图等技术,实现广告曝光点击流数据的实时处理和分析。
架构
:采用 Flink Jobs 进行数据处理,并使用 Consul 进行服务管理。
数据建模
:包括聚合模型、主键模型、物化视图等。
你可能感兴趣
6-2 StarRocks 的实时数仓之路
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
无锡锡商银行基于Flink+Apache Doris构建实时数仓实践
商贸零售
无锡锡商银行
2023-12-31
4-2 Hologres:阿里建设高吞吐、多负载的实时数仓平台
商贸零售
DataFunSummit2022:多维分析架构峰会
2022-07-18
姜伟华(果贝)-阿里一站式实时数仓的建设经验分享
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
中通快递基于SelectDB实时数仓的应用实践
商贸零售
中通快递
2024-04-25