登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
02-小红书云原生实时数仓的建设与实践-王成
文化传媒
2023-06-06
ArchSummit北京2023|全球架构师峰会
L***
AI智能总结
查看更多
背景:云原生落地前ClickHouse遇到的问题和挑战
痛点
:
扩容难
:扩容周期长,需要手动数据搬迁或重写;多副本机制引入中心瓶颈(ZK同步瓶颈,成本成倍增加,查询一致性问题)。
数据同步难
:同步链路复杂,数据写入影响用户查询体验。
运维难
:资源利用率低(平均CPU使用率低,容量预估困难,存储计算比例失调),用户查询体验不稳定(高峰期失败率高,多业务干扰无优先级管理)。
解决方案
:自研云原生实时数仓,目标为灵活性、自主可控、符合多云战略。
云原生OLAP V1.0建设之路
架构
:存算分离,基于云存储(COS/S3/OSS)无限扩展,计算资源池化(计算组弹性伸缩),共享元信息中心和存储。
关键特性
:
分布式执行框架
:分布式写入事务,弹性扩容和故障容错。
多级智能缓存
:内存缓存、SSD缓存、对象存储缓存,基于查询历史智能缓存策略。
分层存储
:云盘+对象存储,优化写入延迟、IOPS、可靠性和成本。
离线数据同步链路优化
:从ClickHouse+Spark Writer优化为RedCK+Spark MergeTreeWriter,实现Exactly-once语义。
业务落地实践
:
降本提效
:RedCK通过弹性伸缩、混合部署提升资源利用率,降低存储成本(年节省几十TB,成本降低明显)。
运维优化
:集群扩容小于30分钟,分钟级自动故障恢复。
实验平台
多租户管理
:路由规则(业务、查询类型、在线/重/冷查询)+弹性扩容队列。
V-next:湖仓一体建设
背景
:数据湖与实时数仓割裂导致冗余,现有实时数仓无法应对复杂ETL,查询方式差异引入额外成本。
方案
:开放MergeTree格式,融合ODS/DW/Storage,支持ETL加工和Presto/Flink融合分析。
未来规划
:持续推进湖仓统一,丰富引擎功能,实现自动敏捷弹性伸缩。
你可能感兴趣
基于 Apache Doris 的传统行业实时数仓建设实践
浪潮海岳
2024-12-18
云音乐实时数仓治理优化实践
文化传媒
DataFunSummit2023:数据治理在线峰会
2023-07-13
“计算、感知、驱动” 金融实时数仓建设实践分享
网易
2023-06-11
02-基于云原生Serverless和消息服务技术采集全球分布业务数据实践-马腾
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06