登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
7-6 HugeGraph大规模图的存储技术选型哲学
电子设备
2022-07-19
DataFunSummit2022:大数据存储架构峰会
张兵
HugeGraph大规图的存储技术选型哲学
HugeGraph简介
图数据库简介
:图数据库是存储、查询图数据的系统,高效索引和计算图数据,数据结构由实体和关联关系组成,如线、树、环、叉、网等。
图数据库趋势
:随着数据规模和复杂度提升,对高效图存储和计算的需求增加。
HugeGraph图数据库简介
:百度自研的分布式图数据库,支持大规模图存储和计算,兼容Apache Tinkerpop,国内首家开源图数据库。
诞生背景
:为存储与分析海量复杂关联关系数据而生,如设备-账号-设备IP-网址图谱、商品知识图谱等。
发展历程
:2016年底启动,2018年对外开源,2019年支持100亿规模图,2020年支持1000亿超大规模图,服务超过100+内外部用户。
产品优势
:
单机性能优异:写50万/秒,读10万/秒,远高于Neo4j和MySQL。
支持分布式共享存储,图存储/KV存储/模糊索引一体。
图数据库与图计算一体,HTAP系统。
千亿规模流式体验,基于存储而非内存架构。
支持千亿大规模在线增量写入,毫秒级查询。
完全兼容Apache Gremlin查询语言。
内置丰富图算法、可视化界面、数据导入工具等。
HugeGraph应用场景
典型应用场景
:互联网风控、反欺诈&黑产打击、金融风控、保险风控、智能推荐、企业图谱、知识图谱、智能运维、智能问答等。
用户案例
:百度内部业务、网易、科大讯飞、网商银行等超过100家用户,社区用户总数量超过1000,Release下载超过2万。
HugeGraph技术架构
需求痛点
:传统关系数据库难以高效处理图数据,需要专门的图数据库解决方案。
技术架构
:支持多种数据源和格式导入,提供Web图形化界面展示,支持离线分析和风控反欺诈等场景。
主要组成部分
:单机存储、图引擎、元数据查询优化、算子下推、事务管理、索引缓存、权限控制、ID管理、数据约束、火山模型、OOM控制、堆外内存、原生集合并行查询、向量化计算、图算法、快照、分布式存储、图计算等。
技术概览
:包括图数据行存/列存、CompactW/R、MVCC、ACID、索引存储、图计算存储等关键技术。
HugeGraph技术选型
选型原则
:程序性能、IO性能、流式计算防止OOM、兼容性、数据多副本、数据一致性、容错性、HTAP、丰富图算法、工具链、超百亿级存储、超十亿级图计算。
存储关键技术选型
:
邻接边索引存储
:单行存储查询快但写性能差,多行存储读写均衡。
图分片/切割选型
:
Edge-Cut:一条边存储在2个分区,适合随机读和OLTP/OLAP场景。
Vertex-Cut(based on edge):一个点存储在n个分区,适合OLAP场景。
Vertex-Cut(based on edges cluster):均衡查询性能和超级点计算负载。
ID类型选型
:支持数字、字符串、UUID,建议优先选择数字类型ID,存储占用小,提升缓存命中,利于读写性能。
顶点/边属性存储
:
顶点属性:混存-属性Inline存储。
边属性:行存Inline +可略过反序列化。
邻接边存储
:行存-SortedKeyTable。
属性索引存储
:行存-SortedKeyTable。
图计算存储
:顶点数据、中间结果、消息、边数据计算结果存储。
选型总结
:
图分片/切割选型:切边。
ID类型选型:用户提供+生成数字。
顶点存储选型:混存-属性Inline存储。
边属性选型:行存Inline +可略过反序列化。
邻接边存储选型:行存-SortedKeyTable。
属性索引存储选型:行存-SortedKeyTable。
原始数据存储:HugeGraph、HDFS。
顶点存储:列存hgkv、状态bitmap格式。
边存储:列存hgkv格式+subkv格式。
计算中间结果存储:列存hgkv格式。
计算消息存储:列存hgkv格式。
计算结果存储:HugeGraph列存格式。
你可能感兴趣
实现轻协同IDE的技术选型经验_李亚飞
商贸零售
ArchSummit深圳2023|全球架构师峰会
2023-08-02
AIGC助力大规模对象存储服务OSS的能效提升
商贸零售
全球软件开发大会
2024-07-31
9-4 海量物联网设备元数据存储引擎选型和演进
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
CIO存储选型决策行为调研报告
商贸零售
戴尔科技
2023-05-04
征集建议 : 在东盟和东亚大规模部署带有电池存储的太阳能光伏的经济分析
商贸零售
东盟与东亚经济研究所
2022-03-07