登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
字节跳动时序存储引擎的探索和实践-陈骁
信息技术
2023-06-06
ArchSummit上海2023|全球架构师峰会
爱***
AI智能总结
查看更多
字节跳动时序存储引擎的探索和实践
技术挑战与整体架构
技术挑战
:字节跳动时序存储引擎面临写入远大于读、查询以分析为主、超高维度、Noisy Neighbours等挑战。
整体架构
:采用二级一致性Hash分区和Metrics级别的动态分区实现线性扩展;通过ResourceGroup和Node的Weight设置保证隔离性。
热存Tsdc
内存存储
:提升热数据读写性能,数据按时间分为多个Slot,最近的slot可修改,历史slot落盘释放内存。
元数据优化
:元数据只存一份,TagKV字典化,TagSet Varint编码后字典化,按需建索引,定时GC。
字典结构
:Dictionary = HashTable + Vector,支持O(1)随机访问和快照实现无锁遍历。
乱序写入优化
:反向Gorilla压缩支持Popback,乱序点不写入ValueBuffer,查询时合并。
查询优化
:支持所有Filter下推,自适应执行,并行Scan,轻重查询隔离。
性能数据
:实例规格24c 240G,平均活跃时间线1.2亿+,CPU使用率40%,内存使用率55%,平均写入量50w点每秒,轻查询平均延时500us,重查询平均延迟10ms。
Khronos存储引擎
现有问题
:重启丢数据,内存开销大,不支持单实例内单个Tenant多Shard,冷热存消费两遍数据,三副本消费易发生不一致。
Khronos目标
:降低内存使用,数据全部持久化,保持高写入吞吐、低查询时延,支持较长时间存储,兼容Tsdc。
Inside a shard
:每个Shard内部是独立的LSMT,分为三层,每层有虚拟时间分区,减少写放大。
Memtable
:基本沿用Tsdc内存结构,SeriesMap采用有序结构,SeriesKey = SeriesHashCode + TagSet。
SSTable格式
:多个Metric数据混合存储,文件尾部有Metric Index,类Parquet格式,行列混存。
Metric格式
:类Parquet格式,大Metric划分为多个SeriesGroup,字典/Raw/Bitshuffle编码。
Flush优化
:BufferWrite减少syscall,PaxLayout减少IO次数和元数据开销。
SSTable查询优化
:延迟投影和PageCache提升性能。
存算分离与更多功能
存算分离
:基于分布式存储,提供大容量存储,融合冷热存,多副本间做复制,分布式Compaction,快速负载均衡。
更多功能和优化
:兼容社区String-Bool-元数据查询,持续性能优化,更高效的数据传输协议,利用字典编码加速查询,算子下推等。
你可能感兴趣
03字节跳动超大规模 Metrics 数据采集的实践和探索--刘浩杨
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
陈培新-爆发式API增长下国信证券的API治理探索与实践
金融
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站
2024-05-13
新零售多模态知识图谱的探索与实践 - 陈河宏 阿里
商贸零售
DataFunSummit 2022 :第二届知识图谱在线峰会PPT汇总
2022-03-21
1-5 云原生开源分布式存储CubeFS在数据湖的探索与实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19