行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

1-3 张威-字节跳动自研万亿级图数据库架构演进

信息技术 2023-07-30 2023 Gdevops全球敏捷运维峰会 Zt

ByteGraph自研方亿级图数据库架构演进

ByteGraph简介

功能：支持用户信息、用户关系、内容数据等，通过图模型实现数据关联挖掘，提供直观简洁的建模方式。
特点：高吞吐、低延迟、最终一致性、兼容Gremlin图查询语言。
数据模型：有向属性图，点和边可携带多属性，支持动态增减。
查询接口：支持Gremlin图遍历语言子集。

ByteGraph 2.0架构

架构：分层架构，包含执行引擎和存储引擎。
执行引擎：支持复杂图查询，如g.V0.has('id', 1).has('type', person).out(knows').has('age', gt(18)).values('name')。
存储引擎：基于LSMTreeKV，存在多层Cache冗余、写放大等问题。

ByteGraph 2.0当前问题

成本问题：分布式KV高成本，冗余副本（3AZ/5副本或3副本）。
存储引擎问题：LSMTreeKV写放大高（40倍），多层Cache冗余内存/CPU。
性能问题：性能分层过多，多跳查询性能不足，基础算子读取性能低。

ByteGraph 3.0解决方案

成本优化：
- 基于EC技术减少副本数量（3AZ/3副本降至3AZ/2副本）。
- 自研DFS+BwTree存储引擎，减少写放大。
架构优化：
- 合并进程，减少穿透层数和RPC开销。
- 主推单分片一主多从架构，减少分片数量。
- 提高单PC事务比例。
执行引擎优化：
- 新一代Pipeline执行引擎，减少通信拷贝开销，支持Numa调度。

ByteGraph 3.0架构介绍

总体架构：融合存储引擎层（Φ层）和并行执行引擎。
并行执行引擎：
- 合并多step到单个pipeline，减少通信开销。
- 单pipeline内可并行启动多个task，利用多核。
- Numa-Aware调度器增强数据局部性。
存储引擎模块：优化存储流程，提升效率。

ByteGraph未来展望

业务收益：
- 存储成本降低30%~50%。
- 多跳召回场景性能提升数倍。
未来工作：
- 补齐3.0功能，持续优化性能。
- 打造Single-Engine生态，提供一体化图数据服务。
- 支撑图数据库查询引擎、全图计算引擎、图训练DataLoader等。
- 通过统一存储格式打通图数据库、GNN、图计算及Spark/Hadoop生态。

Gdevops

字节跳动自研方亿级图数据库架构演进演讲人：张威目录 ByteGraph简介ByteGraph2.0架构介绍ByteGraph 2.0当前问题ByteGraph3.0解决方案ByteGraph3.0架构介绍ByteGraph未来展望dbaplusO ByteGraph简介－可以做什么字节有哪些业务数据呢？用户信息、用户关系内容（视频、文章、广告等）用户和内容联系（点赞、评论、转发、点击）使用图表达业务场景的优势建模直观简洁挖掘数据关联 ByteGraph特点高吞吐低延迟最终一致性兼容Gremlin ByteGraph学术论文VLDB-2022 ByteGraph简介-查询接口 Gremlin简介 Gremlin是一种图灵完备的图遍历语言（相较Cypher等查询语言，功能更全面，上手较为容易，使用更加广泛主流云厂商图数据库都提供了Gremlin支持，ByteGraph目前支持一个子集数据模型有向属性图点和边上都可以携带多属性，支持动态加减属性列 ByteGraph 2.0架构－分层架构 ByteGraph 2.0架构-模块划分 ByteGraph2.0架构－执行引擎 @执行流程示例 g.V0.has('id', 1).has('type', person).out(knows').has('age', gt(18).values('name) ByteGraph 2.0 架构－存储引擎 ByteGraph2.0当前问题高成本的分布式KV 穴余副本：3AZ5副本／3副本 LSMTreeKV存储引擎本身问题多层Cache几余内存/CPU预留：BlockCache/Compaction磁盘预留写放大高：40倍性能分层过多图上多跳性能难以做到极致最基础的GetOneHop算子读取性能不够高 ByteGraph3.0解决方案成本基于EC技术降低副本数量KV->DFS 3AZ/3副本减少到3AZ/2副本高密度存储机型进一步降低TCO 自研基于DFS的BwTree存储引擎：合并2.0存储层Btree引擎和分布式KV引擎，减少写放大合并进程：减少穿透层数，减少多跳查询RPC开销减少分片数量：主推单分片一主多从架构，非必要不分片（利用大内存机器来满足性能）提高1PC事务比例BtreePage内列存自研新一代Pipeline执行引擎，减少通信拷贝开销，感知Numa调度功能 ByteGraph3.0架构介绍－总体架构 ByteGraph3.0架构介绍－并行执行引擎 g.V(v(1), v(2), v(3), ...J.outr'follow').where(out'follow'j.count0.gt(100) 并行执行引擎优势合并多人step到一人pipeline，减少基于channel的通信开销单个pipeline内部可并行启动多个pipelinetask进行运算，充分利用多核能力Numa-Aware的Pipeline调度器，增强数据局部性 ByteGraph3.0架构介绍－存储引擎模块划分 Φ存储引擎层 ByteGraph 3.0架构介绍－存储引擎流程介绍 ByteGraph未来展望业务收益存储成本降低30%~50%，在单分片场景下，多跳召回场景上可提供数倍于原有系统的性能未来工作补齐3.0功能，持续上量，持续优化内部业务&&火山引擎的服务性能和使用体验作为统一存储底座，向上支撑图数据库查询引擎，全图计算引擎，图训练DataLoader等等打造Single-Engine生态：提供一体化图数据服务。随着图数据库，GNN，图计算越来越广泛的使用，用户对于图数据的统一存诺，处理，流动"有了更高的要求，ByteGraph3.0存储层希望提供一套融合多种场景的存储解决方案，通过统一的存储格式，帮助用户打通图数据库，GNN，图计算系统以及spark/Hadoop生态，真正做到一站式处理。 Gdevops THANKYOU

点击免费查看完整报告

1-3 张威-字节跳动自研万亿级图数据库架构演进

ByteGraph自研方亿级图数据库架构演进

ByteGraph简介

ByteGraph 2.0架构

ByteGraph 2.0当前问题

ByteGraph 3.0解决方案

ByteGraph 3.0架构介绍

ByteGraph未来展望

Gdevops

你可能感兴趣

7-5 ByteGraph：字节跳动自研万亿级图数据库及其应用与挑战

中国电信自研数据库TeleDB在系统上云中的规模应用——张明

快递_物流企业信息化建设过程中架构的演进实践与思考-张登

01-从NewSQL到全新的HTAP分布式架构演进-张潇

业务架构演进过程中异构数据库的高效运维探索实践 - 赖坤炽

云原生数据库的架构演进-章颖强

腾讯云向量数据库：应用、新架构演进与未来

AI 无界，Kimi 万亿参数大模型的全球云网架构演进之路 Kimi 全球训推网络用云实践分享

【盘中宝】百度在Al领域全栈自研布局，苹果手机或将搭载百度AI技术，2024年AI有望为百度贡献数十亿元人民币的增量收入，百度腾讯字节跳动，这家公司上游硬件公司客户覆盖多个互联网巨头-20240325

【风口研报·行业】Gemini带来AI网络环节重要变化，谷歌自研OCS（光路交换机）架构采用全光学链接方案，光交换系统组成部件望迎新产业机会；周策略: 政治局会议定调符合预期，二次探底后春季躁动值得期待