行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

ByConity的架构与设计：从ClickHouse到云原生

2027-02-26 字节跳动叶剑锋

ByConity的架构与设计：从ClickHouse到云原生

背景和设计理念

ByConity 是一款基于云原生架构的开源数仓产品，其设计理念围绕开源和云原生展开。开源模式有助于软件更早接触用户、了解真实需求，吸引外部开发者参与，提高迭代效率，并促进商业化拓展海外市场。云原生架构则强调重用云基础设施，实现高可靠性和降低成本，同时从设计之初就满足云的需求。存算分离架构避免了传统分布式系统的性能瓶颈和复杂性。

ByConity 发展历程

2018年：大规模使用 ClickHouse
2020年1月：推出 ByteHouse 云数仓版
2020年5月：ByConity 启动开源
2022年5月：ByConity 开源 0.1.0-GA 版本发布
2023年5月：发布 0.2.0 版本，支持数据湖、ELT、RBAC、提升冷读优化
2023年9月：开源一周年
2024年5月：发布 0.3.0 版本，支持倒排索引、ELT 能力增强、共享存储的选主方式、冷热性能提升

架构设计

ByConity 采用存算分离架构，主要分为服务层、计算组和存储层：

服务层（Cloud Service）：包含 MetaDate（FoundationDB/ByteKV）、Server、Resource Manager、TSO、Daemon Manager 等组件，负责元数据管理、查询解析、计划生成、调度和下发等。
计算组（Virtual Warehouse，VW）：包含 Worker，每个表可以设置默认的 Read VW（查询）和 Write VW（导入和 Merge），支持多租户隔离和读写分离，具备水平和垂直动态扩缩容能力。
存储层（Cloud Storage）：支持 HDFS、S3 等存储系统。

ByConity 的特性

资源隔离
高性能
数据强一致性
读写分离
弹性扩缩容

存算分离的设计思考

统一的元信息管理：提供高可用和高性能的元数据读写服务，支持完备的事务语义，后端存储系统可插拔。
数据存储结构：合并小文件，保持按列存储特性。
数据变更：采用 delta part + base part 和 part chain（merge-on-write）机制。
数据合并：异步 merge，Old parts 通过 GC 清理。
数据缓存：一致性 hash 分配 parts，热数据 worker 节点自动缓存，改进 bucket-lru 算法。
唯一键（UNIQUE KEY）：支持唯一键与排序键不同，支持基于版本字段的比较，支持行删除，支持表级别和分区级别。

唯一键 + Upsert 场景

数据源（如 Kafka）包含重复数据，如何保障数仓表的数据质量？
业务数据流包含行更新，如何高效实时同步和分析？
如何提高 RDBMS->数仓的同步时效性，并支持高效分析？

查询优化器

ByConity 实现了 RBO 和 CBO：

RBO：基于规则的优化能力，使用预定义的启发式规则选择查询执行计划，包括基于 visitor 的全局改写和基于 pattern-match 的局部改写。
CBO：基于代价的优化能力，通过收集和分析数据库中的统计信息评估不同执行计划的成本，选择成本最低的计划。基于 Cascades 搜索框架，遍历等价计划，选出最优解。

查询调度

Cache-aware 调度：针对 source 读取数据，最大化 cache 命中率，提升读写性能。
Resource-aware 调度和流量控制：针对计算节点，最大化资源利用率，合理使用资源。

计算组

多租户隔离
读写分离
水平和垂直动态扩缩容
资源共享

与 ClickHouse 的差异

ByConity 在架构设计、功能特性等方面与 ClickHouse 存在差异，主要体现在云原生支持、存算分离、弹性伸缩等方面。

实践案例

用户分析系统：320TB 数据，2.3 万亿行，2 万个维度。
MetaApp 数据分析平台：240core 1760G 资源消耗。

带来的收益

知识体系：避免资源抢占，节约资源成本，降低运维成本。
开源社区发展：Star 1600+，PR 1700+，Issue 500+，Fork 300+。

2024年整体规划

性能提升：优化动态构建 filter 能力、全局字典、Zero-copy、非等值 join 算子优化等。
数据湖分析数仓能力：支持 Hive 表查询、写入，支持 Hudi 表查询、写入，支持 Iceberg 表查询等。
数据安全和备份恢复：透明加密、表级快照、全量备份恢复等。
易用性：一键部署、Local mode、Dbeaver、Kubeblocks、SugarBI、Quicksight 等。

ByConity的架构与设计：从ClickHouse到云原生演讲人：王蕴博王蕴博字节跳动首席开源布道师、开源基础设施负责人。中国计算机学会(CCF)开源发展委员会副秘书长，CCFGitLink社区负责人，CCF GLCC发起人兼组委会主席。前腾讯开源联盟委员（TOSA），前滴滴开源办公室负责人。长期专注于大数据、DevOps、AI等方向；对开源治理、项目孵化、开源合规等具有丰富的经验。背景和设计理念存算分离架构设计用户案例分享 B y C o n i t y历史 B y C o n i t y设计之初云原生开源 d●开源让软件更早接触用户，了解用户真实需求；●吸引外部开发者参与，汇聚领域人才参与，传播影响力；●更加高效的迭代，软件更佳安全和健康●开源O p e n C o r e模式促进商业化，拓展海外市场 d●重用云基础设施，高可靠性和降低成本；●整个系统和架构设计从开始就基于云的需求；●存算分离避免了传统分布式系统的一些性能瓶颈和复杂性开源从“命名”开始 ByConity是通过开源，融合一群希望打破常规技术的开发者，改变数据的使用方式基于云原生架构 ●服务层（C l o u d S e r v i c e） ●M e t a D a t e：F o u n d a t i o n D B / B y t e K V●S e r v e r：表元数据缓存、查询S Q L解析、计划生成、调度和下发●R e s o u r c e M a n a g e r：服务发现、负载心跳检测●T S O：全局唯⼀单调递增的时间戳●D a e m o n M a n a g e r：调度和管理任务 ●计算组（Vi r t u a l Wa r e h o u s e，V W） ●Wo r k e r：执行片段的执⾏，后台任务的执⾏、L o c a l D i s k C a c h e●每个表可以设置默认的R e a d V W（查询）和Wr i t e V W（导入和M e r g e ) ●存储层（C l o u d S t o r a g e )●支持H D F S、S 3 B y C o n i t y的特性存算分离的设计思考 ●需要统一的元信息管理系统 ●分布式文件系统大多数存在元信息管理压力问题（nn）●分布式统一存储系统大多不支持rewrite，一些对象存储系统甚至不支持append●分布式对象存储系统大多move代价都比较高●io latency通常情况对比本地文件系统下都存在增加的情况统一的元数据管理 ●提供高可用和高性能的元数据读写服务 ●完备事务语义的支持 ●后端存储系统可插拔，方便扩展数据存储结构 ●合并小文件，每个part所有数据存储在一个文件中数据变更 ●读放大数据合并 ●异步merge ●Oldparts通过GC清理数据缓存 ●一致性hash分配parts ●热数据worker节点自动缓存 ●改进bucket-lru算法 ●避免数据reshuffling 唯一键（U N I Q U EK E Y）实际场景 ●数据源(如Kafka)包含重复数据，如何保障数仓表的数据质量?●业务数据流包含行更新，如何高效实时同步和分析?●如何提高RDBMS->数仓的同步时效性，并支持高效分析? 唯一键+Upsert ●面向读取操作进行优化●支持唯一键与排序键不同●支持基于版本字段的比较●支持行删除●支持表级别和分区级别查询优化器 ●优化器：本质是对查询计划的等价转换，从中找到最优解或者较优解。ByConity实现了RBO和CBO ●RBO：基于规则的优化能力。使用一系列预定义的启发式规则来选择查询执行计划。 ●基于visitor的全局改写，例如filter下推、列的裁剪、SQL指纹等●基于pattern-match的局部改写，例如多个filter的merge、多个projection的merge ●CBO：基于代价的优化能力。通过收集和分析数据库中的统计信息来评估不同执行计划的成本，并选择成本最低的计划作为最佳计划。 ●基于Cascades搜索框架，遍历等价计划，评估每种等价计划的代价，选出最优解●JoinReorder超过10表启发式搜索●分布式执行计划，属性传递，基于代价生成最优的分布式计划查询调度 ●负责对生成的可执行计划plansegmenttree进行调度 ●Cache-aware调度–针对source，读取数据 ●最大化cache命中率，提升读写性能●拓扑发生变化时，最小化cache失效的影响 ●Resource-aware调度和流量控制–针对计算节点，纯计算 ●最大化资源利用率●合理使用资源，避免负载过高计算组实践案例—用户分析系统实践案例—M e t a A p p数据分析平台业务测试带来哪些收益节约资源成本运维成本降低避免资源抢占天然的资源隔离和租户隔离，不同用户查询相互不收到影响存算分离架构，计算节点为无状态节点，发生故障秒级替换 d基于Kubernetes的弹性伸缩能力，实现无感扩缩容开源社区发展 Star1600+ PR1700+ Issue500+ 2 0 2 4年整体规划性能提升数仓能力数据湖分析 •优化动态构建filter能力•全局字典•Zero-copy•非等值join算子优化•并行化重构•Bucket表优化•UncompressedCache优化•多表异步物化视图 •复杂大数据ELT稳定运行•RuntimeFilter性能优化•Shuffle性能优化•算子落盘•长事物优化•失败重试•MySQL兼容性•SQL诊断优化 •支持Hive表查询、写入•支持Hudi表查询、写入•支持Iceberg表查询•外表查询性能优化•外表物化视图•Hive元数据Catalog同步生态数据安全和备份恢复易用性 •透明加密•表级快照•全量备份恢复 •一键部署•Localmode •Dbeaver•Kubeblocks•SugarBI•Quicksight 欢迎交流&加入我们谢谢观看

点击免费查看完整报告

ByConity的架构与设计：从ClickHouse到云原生