登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
02-小红书云原生实时数仓的建设与实践-王成
文化传媒
2023-06-06
ArchSummit北京2023|全球架构师峰会
Leona
背景:云原生落地前ClickHouse遇到的问题和挑战
痛点
:
扩容难
:扩容周期长,需要手动数据搬迁或重写;多副本机制引入中心瓶颈(ZK同步瓶颈,成本成倍增加,查询一致性问题)。
数据同步难
:同步链路复杂,数据写入影响用户查询体验。
运维难
:资源利用率低(平均CPU使用率低,容量预估困难,存储计算比例失调),用户查询体验不稳定(高峰期失败率高,多业务干扰无优先级管理)。
解决方案
:自研云原生实时数仓,目标为灵活性、自主可控、符合多云战略。
云原生OLAP V1.0建设之路
架构
:存算分离,基于云存储(COS/S3/OSS)无限扩展,计算资源池化(计算组弹性伸缩),共享元信息中心和存储。
关键特性
:
分布式执行框架
:分布式写入事务,弹性扩容和故障容错。
多级智能缓存
:内存缓存、SSD缓存、对象存储缓存,基于查询历史智能缓存策略。
分层存储
:云盘+对象存储,优化写入延迟、IOPS、可靠性和成本。
离线数据同步链路优化
:从ClickHouse+Spark Writer优化为RedCK+Spark MergeTreeWriter,实现Exactly-once语义。
业务落地实践
:
降本提效
:RedCK通过弹性伸缩、混合部署提升资源利用率,降低存储成本(年节省几十TB,成本降低明显)。
运维优化
:集群扩容小于30分钟,分钟级自动故障恢复。
实验平台
多租户管理
:路由规则(业务、查询类型、在线/重/冷查询)+弹性扩容队列。
V-next:湖仓一体建设
背景
:数据湖与实时数仓割裂导致冗余,现有实时数仓无法应对复杂ETL,查询方式差异引入额外成本。
方案
:开放MergeTree格式,融合ODS/DW/Storage,支持ETL加工和Presto/Flink融合分析。
未来规划
:持续推进湖仓统一,丰富引擎功能,实现自动敏捷弹性伸缩。
你可能感兴趣
基于 Apache Doris 的传统行业实时数仓建设实践
商贸零售
浪潮海岳
2024-12-18
云音乐实时数仓治理优化实践
商贸零售
DataFunSummit2023:数据治理在线峰会
2023-07-13
“计算、感知、驱动” 金融实时数仓建设实践分享
商贸零售
网易
2023-06-11
02-基于云原生Serverless和消息服务技术采集全球分布业务数据实践-马腾
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06