核心观点与关键数据
图数据库趋势
市场规模预计从2018年的650M美元增长至2026年的8B美元,复合年增长率(CAGR)为30%-100%。主要应用场景包括金融证券(反洗钱、反欺诈、企业图谱)、制造业(供应链管理)、政府(疫情密接分析)、物联网、电力及智慧家庭等。
图数据库价值
通过数据关系探索发现隐藏联系,挖掘数据价值,支持商业智能、人工智能、机器学习等应用,提升决策准确性和效率。
NebulaGraph 产品特性与架构
产品特性
- 四元属性图:点-二元组(VID,TAG),边-四元组(SRC,TYPE,RANK,DST),支持索引属性和Geospatial。
- CAP特性:分布式架构,支持千亿点万亿边规模,在线扩缩容,高可用性。
- 多图空间:物理隔离,读写权限控制。
- 查询语言:原生声明式语言nGQL,兼容openCypher。
- 多计算框架:Plato、GraphX、Euler等。
- 多图算法:PageRank、Louvain、连通分量、标签传播等几十种算法。
存算分离分布式架构
- 架构演进:从读写分离到分库分表,最终实现存算分离。
- 产品大图:包含Meta Engine(用户管理、分区管理、空间管理等)、Storage Engine(分布式存储,支持SSD/HDD+内存)、Query Engine(查询引擎,支持大并发吞吐和低时延)。
- 存算分离优势:存储和计算层独立扩缩容,提高资源利用率,支持计算下推。
性能优化与关键技术
性能优化
- 点边分离:将图结构和属性分离处理,提升效率(5x-10x)。
- 算子下推:将可下推算子(如filter、limit、dedup、aggregate、sort)推至Storage层,减少数据传输。
- 属性分离:图结构与属性分离,KV分离(3.0 GA)。
- 多种类型的缓存:支持图结构索引(B-tree)。
架构特性
- 分布式:支持千亿点万亿边规模,在线扩缩容。
- 高可用:采用Raft协议保证数据强一致性。
- 多平台运行:X86、ARM。
- 多计算框架:支持Latency和Throughput。