登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-2 分布式KV存储系统Apache Pegasus的应用与实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
M***
AI智能总结
查看更多
分布式KV存储系统Apache Pegasus应用与实践
项目介绍
概念
:分布式数据库相比传统数据库具有可扩展、高可用的优点,但一致性保证和故障诊断更复杂;KV数据库作为NoSQL的一种,存储Key-Value键值对,类比Java/C++的map集合。
背景
:Pegasus面向数据规模较大、对延迟敏感且有一致性、持久化存储需求的业务,填补了极低时延、数据量大、成本高且强一致性的市场空白。
架构
:包含Meta server(集群控制及配置管理,通过ZK选主实现高可用)、Replica server(数据节点,固定Hash分片支持扩展,PacificA实现数据强一致,三副本,基于RocksDB)。
数据模型
:Key-Value存储,支持组合主键HashKey+SortKey,灵活可扩展。
功能特性
性能
:版本2.2.0 Benchmark测试,5台节点,单条数据1KB,Read:Write比例1:3时,QPS高达461万,P99延迟10ms。
读写接口
:提供基础操作(set/get/del)、原子操作(multiSet/multiGet/multiDel, batchSet/batchGet/BatchDel)、扫描操作(hashScan, fullScan)、CAS操作(checkAndSet, checkAndMutate)及其他操作(incr, exist)。
数据热备
:通过client到Master region再到Slave region的复制实现最终一致性读取。
数据冷备
:支持HDFS和AWS对象存储的上传和恢复。
BulkLoad
:支持sst文件批量导入数据。
大数据生态融合
:支持在线数据导出和离线计算结果导入,实现离线分析和实时读取。
应用实践
适用场景
:数据结构简单、存储量大、有持久化需求、强一致、低延迟(P99<15ms);不适用于结构复杂、单条记录大、数据量小的场景。
小米场景1(大数据OneID业务)
:冷启动、离线BI、实时BI,峰值QPS=130W/S,延迟P99<10ms。
小米场景2(广告算法特征缓存)
:峰值QPS=写60K/S读600K/S,延迟P99 < 15ms。
社区场景(神策数据)
:id-maping、渠道追踪、用户画像、多租户服务、缓存服务,规模1000+集群。
开源展望
发展历程
:2015年启动,2016年发布1.0.0并加入Apache,2020年6月和9月分别发布2.0.0和2.1.0,2021年9月主办首次Meetup。
社区活动
:2021年8月出席ApacheConAsia发表演讲,2021年9月主办首次Meetup。
未来规划
:功能上支持数据安全、SLA保障、业务场景扩展、多云架构、新能力(AEP、SPDK、RDMA、io_uring);开源建设上推动合规建设、提升社区活跃度。
你可能感兴趣
5-4 Apache Spark 在自助分析系统的应用实践与优化
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
3-2 可信密态数据库研究进展与应用实践 -汪晟
信息技术
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18
3-3 联想基于Apache DolphinScheduler构建统一调度中心的应用实践
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
Apache Doris在正泰集团数据中台的应用实践
信息技术
正泰集团
2025-01-14
Apache Doris在任子行的应用实践
信息技术
任子行
2025-01-14