登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-2 分布式KV存储系统Apache Pegasus的应用与实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
M.凯
分布式KV存储系统Apache Pegasus应用与实践
项目介绍
概念
:分布式数据库相比传统数据库具有可扩展、高可用的优点,但一致性保证和故障诊断更复杂;KV数据库作为NoSQL的一种,存储Key-Value键值对,类比Java/C++的map集合。
背景
:Pegasus面向数据规模较大、对延迟敏感且有一致性、持久化存储需求的业务,填补了极低时延、数据量大、成本高且强一致性的市场空白。
架构
:包含Meta server(集群控制及配置管理,通过ZK选主实现高可用)、Replica server(数据节点,固定Hash分片支持扩展,PacificA实现数据强一致,三副本,基于RocksDB)。
数据模型
:Key-Value存储,支持组合主键HashKey+SortKey,灵活可扩展。
功能特性
性能
:版本2.2.0 Benchmark测试,5台节点,单条数据1KB,Read:Write比例1:3时,QPS高达461万,P99延迟10ms。
读写接口
:提供基础操作(set/get/del)、原子操作(multiSet/multiGet/multiDel, batchSet/batchGet/BatchDel)、扫描操作(hashScan, fullScan)、CAS操作(checkAndSet, checkAndMutate)及其他操作(incr, exist)。
数据热备
:通过client到Master region再到Slave region的复制实现最终一致性读取。
数据冷备
:支持HDFS和AWS对象存储的上传和恢复。
BulkLoad
:支持sst文件批量导入数据。
大数据生态融合
:支持在线数据导出和离线计算结果导入,实现离线分析和实时读取。
应用实践
适用场景
:数据结构简单、存储量大、有持久化需求、强一致、低延迟(P99<15ms);不适用于结构复杂、单条记录大、数据量小的场景。
小米场景1(大数据OneID业务)
:冷启动、离线BI、实时BI,峰值QPS=130W/S,延迟P99<10ms。
小米场景2(广告算法特征缓存)
:峰值QPS=写60K/S读600K/S,延迟P99 < 15ms。
社区场景(神策数据)
:id-maping、渠道追踪、用户画像、多租户服务、缓存服务,规模1000+集群。
开源展望
发展历程
:2015年启动,2016年发布1.0.0并加入Apache,2020年6月和9月分别发布2.0.0和2.1.0,2021年9月主办首次Meetup。
社区活动
:2021年8月出席ApacheConAsia发表演讲,2021年9月主办首次Meetup。
未来规划
:功能上支持数据安全、SLA保障、业务场景扩展、多云架构、新能力(AEP、SPDK、RDMA、io_uring);开源建设上推动合规建设、提升社区活跃度。
你可能感兴趣
5-4 Apache Spark 在自助分析系统的应用实践与优化
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
3-2 可信密态数据库研究进展与应用实践 -汪晟
商贸零售
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18
3-3 联想基于Apache DolphinScheduler构建统一调度中心的应用实践
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
1-5 龚兵-vivo存储系统的数据可靠性探索与实践
商贸零售
2023 Gdevops全球敏捷运维峰会
2023-07-31
Apache Doris在任子行的应用实践
商贸零售
任子行
2025-01-14